Forschung · Arbeitsentwurf · 2026
Compliance-bewusste Retrieval-Augmented Generation für regulierte Finanzberichts-Corpora
Eine reale Evaluierung anhand von SEC-EDGAR-Einreichungen.
Aru Bhardwaj · Insightrix, Frankreich · 33 Seiten · 2026
81.12%
0.00%
Constraint-Verletzungen
21.29%
0.00%
Output-Disclosures
—
4.8 pts
F1-Kosten
—
0 ms
p95-Latenz-Overhead
Kurzfassung
Standard-RAG holt das, was am relevantesten ist. In regulierten Branchen ist das Relevanteste nicht zwangsläufig das Erlaubte. Eine Passage kann der beste Match für eine Anfrage sein und dennoch für diesen Nutzer, diesen Zweck, diese Sitzung unzulässig — unter DSGVO, EU AI Act, Reg FD, FINRA, SOX oder HIPAA.
CARAG (Compliance-Aware RAG) ist eine fünfstufige Architektur, die Compliance als erstklassige Eigenschaft des Index, des Retrievers, des Generators und des Audit-Logs behandelt. Das Paper veröffentlicht einen Benchmark aus 6.000 echten SEC-EDGAR-Einreichungen (26.595 Chunks über sieben Quartale), mit Policy-Vektoren aus dokumentierten Submission-Feldern statt synthetischen Verteilungen.
Auf dem Hauptbenchmark senkt CARAG die Constraint-Violation-Rate von 81,12 % auf 0,00 % und die Output-Disclosure-Rate von 21,29 % auf 0,00 %, opfert dabei nur 4,8 F1-Punkte und fügt 0 ms 95-Perzentil-Latenz gegenüber einer Vanilla-RAG-Baseline hinzu.
Warum das in Produktion zählt
Drei reale Deployments motivieren die Architektur — operativ verbreitet, aber architektonisch unhandlich für Vanilla-RAG:
- 1Sell-Side-Aktienresearch. Ein Vanilla-Retriever zeigt das jüngste 10-K eines Analysten neben einem privat in Auftrag gegebenen Modell, dessen Deal-Team der Analyst nicht angehört, und einem veralteten 10-Q, das durch einen Nachtrag abgelöst wurde. Veröffentlicht aus der zweiten Quelle: regulatorische Strafe; aus der dritten: analytischer Fehler.
- 2Klinische Entscheidungsunterstützung. Eine Krankenpflegekraft fragt nach einem Patienten. Der Retriever zeigt relevante Notizen eines Spezialisten außerhalb der Behandlungsbeziehung — unzulässig nach HIPAAs Minimum-Necessary-Regel, selbst innerhalb desselben Krankenhauses.
- 3Cross-Border-Analytik. Ein globaler Asset Manager in Frankfurt führt RAG über EU-, US- und Singapur-resident Einreichungen aus. Unter DSGVO Artikel 6 schränkt die Rechtsgrundlage, unter der ein EU-resident Dokument indiziert wurde, die Zwecke ein, für die es abgerufen werden darf — pro Dokument, nicht pro Nutzer.
In allen drei Fällen sind die Dokumente legitim, der Nutzer autorisiert, die Frage vernünftig — und die Schnittmenge zum Retrieval-Zeitpunkt dennoch unzulässig. Genau diese Schnittmenge muss RAG zu berechnen lernen.
Vier Fehlermodi compliance-naiver RAG-Systeme
F1
Index-Zeit-Leak
Ein Dokument wird indiziert, ohne zu prüfen, ob der Ingestion-Kontext das System dazu berechtigte. Sobald der Chunk im Index ist, sieht ihn jede nachgelagerte Anfrage unabhängig von der Policy.
F2
Retrieval-Zeit-Leak
Der Chunk ist korrekt etikettiert, aber der Retriever konsultiert das Etikett nicht, daher erscheint er im Top-k für Anfragen, deren Policy ihn verbietet. Der modale Fehler von Vanilla-RAG.
F3
Generation-Zeit-Leak aus unzulässigem Kontext
Der Retriever filtert korrekt, doch der Generator paraphrasiert über Snippets hinweg und synthetisiert Inhalte, die aus einem unzulässigen Chunk stammen.
F4
Generation-Zeit parametrischer Leak
Der Retriever liefert nichts Brauchbares, doch der Decoder gibt selbstbewusst eine Tatsache aus, die er aus seinem Pre-Training rekonstruiert hat — mitunter selbst unzulässig.
CARAG schließt F1–F3 strukturell und F4 probabilistisch.
Die fünfstufige CARAG-Pipeline
- 1
Ingestion + Policy-Etikettierung
Jeder Chunk erhält einen 27-Bit-Policy-Vektor, gepackt in ein 32-Bit-Maschinenwort — deterministisch abgeleitet aus dokumentierten Metadatenfeldern. ~0,4 % Speicheroverhead bei d=1024, fp16.
- 2
Metadaten-bewusster Index (HNSW)
Standard Hierarchical Navigable Small World-Graph (M=32, efConstruction=200), mit der Policy-Bitmask neben jedem Vektor co-lokalisiert für O(1)-Zulässigkeitstests pro Kandidat.
- 3
Policy-Inferenz
Bildet (Anfrage, Nutzerrolle, Sitzungszweck) auf ein (M_req, M_for)-Maskenpaar ab über ein deterministisches Rolle-Policy-Lookup plus einen Sitzungsmodulator, der query-bedingte Verfeinerungen wie die aktive Deal-Liste anwendet.
- 4
Constraint-bewusster Retriever
Bitweiser Zulässigkeitstest, ausgewertet innerhalb der inneren Schleife der HNSW-Traversierung — bevor der Result-Heap aktualisiert wird. Adaptive ef-Expansion erhält den Recall unter strengen Policies.
- 5
Bewachter Generator + Merkle-verankertes Audit-Log
Der Generator (Amazon Nova Micro) sieht zulässige und unzulässige Buckets explizit und ist angewiesen, nur aus ersterem zu schöpfen. Jede Anfrage erzeugt einen append-only Merkle-verankerten Eintrag, ausreichend für Artikel 12 des EU AI Act.
Hauptergebnisse
Vier Systeme auf dem SEC-Compliance-Benchmark — n = 600 Anfragen, k = 8 abgerufene Chunks pro Anfrage. CARAG erreicht die niedrigste CVR und ODR und opfert dabei nur eine kleine Konstante von Token-F1.
| System | CVR ↓ | ODR ↓ | Refusal | F1 | p95 (ms) |
|---|---|---|---|---|---|
| B0 Vanilla RAG | 81.12% | 21.29% | 24.90% | 0.096 | 41,498 |
| B1 Post-filter | 0.00% | 0.00% | 23.69% | 0.085 | 41,219 |
| B2 Pre-filter (RBAC) | 32.53% | 9.64% | 22.89% | 0.085 | 41,944 |
| CARAG (full) | 0.00% | 0.00% | 40.56% | 0.048 | 41,005 |
Tabelle 2, Abschnitt 6.1. CVR = Constraint-Violation-Rate, ODR = Output-Disclosure-Rate. Der Pre-Filter (B2) erreicht denselben CVR-Boden wie CARAG, aber zum Preis eines deutlichen F1-Abfalls, weil eine statische Rollenpartition zu grob ist, um query-bedingte Zulässigkeit zu rekonstruieren.
Wo die Kosten liegen
Die Aufschlüsselung nach Anfragestratum (loose / medium / tight) zeigt, wo die architektonischen Kosten von Compliance fallen. Bei loose-Anfragen — wo die Policy die Mehrheit der relevanten Chunks zulässt — folgt CARAGs F1 eng der Vanilla-Baseline. Die Lücke öffnet sich leicht bei medium-Anfragen und vollständig bei tight-Anfragen, wo die relevante Menge wirklich dünn ist.
Genau dieses tight-Stratum ist auch dort, wo CVR und ODR am wichtigsten sind: jede Verletzung ist konstruktionsbedingt semantisch bedeutsam — ein unzulässiger Chunk enthält die Antwort. Die Kosten konzentrieren sich exakt dort, wo Policy die relevante Menge substanziell einschränkt, nicht bei routinemäßigen Due-Diligence-Anfragen.
Produktionsökonomie
Speicheroverhead
~0,4 %
Ein 32-Bit-Wort pro Chunk bei d=1024, fp16. ~4 GB zusätzlicher RAM/Disk für einen Milliarden-Chunk-Index.
Index-Build-Zeit
Vernachlässigbar
Bitmask wird zum Chunk-Emissionszeitpunkt aus bereits verfügbaren Metadatenfeldern berechnet.
Query-Zeit-Compute
O(1) pro Kandidat
Bitweiser Zulässigkeitstest; adaptives ef fügt eine policy-abhängige Konstante hinzu.
Audit-Speicher
~1 KB/Anfrage
~1,2 KB/Anfrage im Produktionslogging, wo jeder abgerufene Chunk auch Similarity-Score und Policy-Bits trägt.
Reproduzierbarkeit
Alle Experimente laufen auf Amazon Bedrock eu-west-3, ohne hauseigene GPUs in der Schleife:
- Embedding: cohere.embed-multilingual-v3 (1024 Dimensionen, L²-normalisiert)
- Generator: amazon.nova-micro-v1:0 (Temperatur 0, max_tokens=80)
- Output-Disclosure-Judge: amazon.nova-lite-v1:0 mit strukturierter JSON-Rubrik (κ=0,81 vs. Autorenlabels auf 200 handvalidierten Aufrufen)
- Index: hnswlib mit M=32, efConstruction=200, efSearch=64
- Corpus: 6.000 SEC-Einreichungen → 26.595 Chunks über 877 einzelne Filer, sieben Quartale (2024Q3–2026Q1)
- Bedrock-Gesamtausgaben pro vollständiger Reproduktion: ~3 USD
Was das für Ihren Stack bedeutet
Wenn Sie ein RAG-System betreiben, das Folgendes berührt:
- →EU-Jurisdiktionen (DSGVO Artikel 5, 6, 22 + AI Act Artikel 12–15)
- →Finanzdienstleistungen (Reg FD, FINRA Rule 2241, SOX / PCAOB AS 2820)
- →Gesundheitswesen (HIPAA, DSGVO Artikel 9 besondere Kategorien)
- →Grenzüberschreitende Datenresidenz (EU/US/UK/CA/Andere)
…ist Compliance keine Sache mehr, die Sie nachträglich draufsetzen können. CARAGs Bitmask-Kodierung lässt sich in Tagen, nicht Monaten, an einen bestehenden Dense-Index nachrüsten, und das Audit-Log ist unter Artikel 12 des EU AI Act prüfbar.
Diese Arbeit zitieren
@techreport{bhardwaj2026carag,
author = {Bhardwaj, Aru},
title = {Compliance-Aware Retrieval-Augmented Generation
for Regulated Financial-Reporting Corpora:
A Real-World Evaluation on SEC EDGAR Filings},
institution = {Insightrix},
year = {2026},
type = {Working Draft},
address = {Paris, France},
url = {https://arubhardwaj.eu/research/compliance-aware-rag-sec-edgar}
}Bringen Sie CARAG-artige Architektur in Ihren Stack
Genau diese Art Architektur deploye ich als Fractional CTO. Wenn Ihr Team ein RAG-System betreibt, das regulierte Daten berührt — EU, Gesundheitswesen, Finanzen oder grenzüberschreitend — sprechen wir.