Problem
Ein Enterprise-Kunde benötigte Retrieval-Augmented Generation über einen internen 1,2-Mio.-Dokument-Corpus, in dem die Zulässigkeit zum Retrieval-Zeitpunkt — wer was zu welchem Zweck sehen darf — ebenso wichtig ist wie die Relevanz. Standard-RAG scheitert hier: die relevanteste Passage kann die rechtlich unzulässigste sein.
Ansatz
Fünfstufige Architektur, die Compliance als erstklassige Eigenschaft von Index, Retriever, Generator und Audit-Log behandelt. Jeder Chunk trägt eine 27-Bit-Policy-Bitmask in einem 32-Bit-Wort. Bitweise Zulässigkeitsprüfungen werden innerhalb der inneren HNSW-Schleife ausgewertet, bevor der Ergebnis-Heap aktualisiert wird. Der Generator erhält zulässige und unzulässige Buckets explizit getrennt, mit einem Refusal-Head, wenn keine zulässige Evidenz existiert. Jede Anfrage erzeugt einen Merkle-verankerten Audit-Log, ausreichend für Artikel 12 des EU AI Act.
Stack
Qdrant with custom HNSW patches · FastAPI · Claude / GPT-4 · Python audit-log substrate
Ergebnis
Sub-300-ms-p95-Retrieval-Latenz auf einem 2,5-Mio.-Knoten-Graph. Produktive Compliance-Posture, audit-fest by design. Die Architektur wurde unabhängig auf einem öffentlichen 26.595-Chunk-Benchmark aus echten SEC-EDGAR-Einreichungen validiert — als Arbeitsentwurf veröffentlicht; dieselbe Architektur senkt Constraint-Verletzungen von 81,12 % auf 0,00 % und Output-Disclosures von 21,29 % auf 0,00 % bei 4,8 F1-Punkten Kosten.