Torna alla ricerca

Ricerca · Bozza di lavoro · 2026

Compliance-Aware Retrieval-Augmented Generation per corpora di reporting finanziario regolamentato

Una valutazione reale sui depositi SEC EDGAR.

Aru Bhardwaj · Insightrix, Francia · 33 pagine · 2026

Bozza di lavoro — feedback benvenuti a bonjour@arubhardwaj.eu
ENIl PDF è disponibile solo in inglese. Di seguito una sintesi tradotta dei punti chiave.

81.12%

0.00%

Violazioni dei vincoli

21.29%

0.00%

Disclosure di output

4.8 pts

Costo F1

0 ms

Overhead di latenza p95

In sintesi

Il RAG standard recupera ciò che è più rilevante. Nelle industrie regolamentate, ciò che è più rilevante non è necessariamente ciò che è permesso. Un passaggio può essere il match migliore per una query e comunque inammissibile per quell'utente, per quello scopo, in quella sessione — sotto GDPR, AI Act europeo, Reg FD, FINRA, SOX o HIPAA.

CARAG (Compliance-Aware RAG) è un'architettura a cinque stadi che tratta la compliance come proprietà di primo livello dell'indice, del retriever, del generatore e dell'audit log. Il paper rilascia un benchmark costruito su 6.000 depositi SEC EDGAR reali (26.595 chunk in sette trimestri), con vettori di policy derivati da campi di submission documentati anziché da distribuzioni sintetiche.

Sul benchmark principale, CARAG riduce il tasso di violazione dei vincoli dall'81,12% allo 0,00% e il tasso di disclosure dell'output dal 21,29% allo 0,00%, sacrificando solo 4,8 punti F1 e aggiungendo 0 ms di latenza al 95° percentile rispetto a una baseline RAG vanilla.

Perché conta in produzione

Tre deployment reali motivano l'architettura — operativamente comuni ma architetturalmente difficili per il RAG vanilla:

  1. 1
    Sell-side equity research. Un retriever vanilla espone il 10-K più recente di un analista insieme a un modello commissionato privatamente sul deal team del quale l'analista non fa parte, e un 10-Q stantio sostituito da un emendamento. Pubblicare dal secondo genera una multa regolatoria; dal terzo, un errore analitico.
  2. 2
    Supporto decisionale clinico. Un infermiere fa una query su un paziente. Il retriever espone note rilevanti di uno specialista al di fuori della relazione di cura — inammissibile sotto la regola minimum-necessary di HIPAA, anche all'interno dello stesso ospedale.
  3. 3
    Analytics cross-border. Un asset manager globale a Francoforte esegue RAG su filings EU-, US- e Singapore-resident. Sotto l'Articolo 6 GDPR, la base giuridica con cui un documento EU è stato indicizzato vincola gli scopi per cui può essere recuperato — per documento, non per utente.

In tutti e tre i casi i documenti sono legittimi, l'utente è autorizzato, la domanda è ragionevole — e l'intersezione al momento del recupero è comunque impermissibile. Quell'intersezione è ciò che il RAG deve imparare a calcolare.

Quattro modalità di fallimento del RAG ignaro della compliance

F1

Leakage al momento dell'indicizzazione

Un documento viene indicizzato senza verificare se il contesto di ingestion autorizzava il sistema a farlo. Una volta nell'indice, ogni query downstream lo vede indipendentemente dalla policy.

F2

Leakage al momento del retrieval

Il chunk è etichettato correttamente ma il retriever non consulta l'etichetta, quindi appare nei top-k per query la cui policy lo proibisce. Il fallimento modale del RAG vanilla.

F3

Leakage in generazione da contesto inammissibile

Il retriever filtra correttamente ma il generatore parafrasa tra snippet e sintetizza contenuto originato in un chunk inammissibile.

F4

Leakage parametrico in generazione

Il retriever non restituisce nulla di utile, ma il decoder emette con sicurezza un fatto recuperato dal suo pre-training — talvolta esso stesso inammissibile.

CARAG chiude F1–F3 strutturalmente e F4 probabilisticamente.

La pipeline CARAG a cinque stadi

  1. 1

    Ingestion + etichettatura della policy

    Ogni chunk riceve un vettore di policy a 27 bit impacchettato in una parola macchina a 32 bit — derivato deterministicamente da campi metadata documentati. ~0,4% di overhead di storage a d=1024, fp16.

  2. 2

    Indice metadata-aware (HNSW)

    Grafo hierarchical navigable small-world standard (M=32, efConstruction=200), con la bitmask di policy co-localizzata accanto a ciascun vettore per test di ammissibilità O(1) per candidato.

  3. 3

    Inferenza della policy

    Mappa (query, ruolo utente, scopo della sessione) in una coppia di maschere (M_req, M_for) tramite un lookup deterministico ruolo-policy più un modulatore di sessione che applica raffinamenti query-condizionali come la deal-list attiva.

  4. 4

    Retriever sensibile ai vincoli

    Test di ammissibilità bitwise valutato dentro il loop interno della traversata HNSW — prima che l'heap dei risultati venga aggiornato. L'espansione adattiva di ef preserva il recall sotto policy strette.

  5. 5

    Generatore guardato + audit log Merkle-anchored

    Il generatore (Amazon Nova Micro) vede esplicitamente i bucket ammissibile e inammissibile ed è istruito a usare solo il primo. Ogni query produce un record append-only con ancoraggio Merkle sufficiente per l'Articolo 12 dell'AI Act europeo.

Risultati principali

Quattro sistemi sul benchmark di compliance SEC — n = 600 query, k = 8 chunk recuperati per query. CARAG ottiene il CVR e l'ODR più bassi sacrificando solo una piccola costante di token-F1.

SistemaCVR ↓ODR ↓RifiutoF1p95 (ms)
B0 Vanilla RAG81.12%21.29%24.90%0.09641,498
B1 Post-filter0.00%0.00%23.69%0.08541,219
B2 Pre-filter (RBAC)32.53%9.64%22.89%0.08541,944
CARAG (full)0.00%0.00%40.56%0.04841,005

Tabella 2, Sezione 6.1. CVR = Tasso di violazione dei vincoli, ODR = Tasso di disclosure dell'output. Il pre-filter (B2) raggiunge lo stesso pavimento CVR di CARAG ma al costo di un calo netto di F1 perché una partizione di ruolo statica è troppo grossolana per recuperare l'ammissibilità query-condizionale.

Dove vive il costo

Disaggregando per strato di query (loose / medium / tight) si rivela dove cade il costo architetturale della compliance. Sulle query loose — dove la policy ammette la maggior parte dei chunk rilevanti — l'F1 di CARAG segue da vicino la baseline vanilla. Il divario si allarga leggermente sulle query medium e si apre completamente sulle query tight, dove il set rilevante è genuinamente sparso.

Quello strato tight è anche dove CVR e ODR contano di più: ogni violazione è, per costruzione, semanticamente significativa — un chunk inammissibile contiene la risposta. Il costo si concentra esattamente dove la policy restringe sostanzialmente il set rilevante, non sulle query di due-diligence ordinarie.

Economia di produzione

Overhead di storage

~0,4%

Una parola a 32 bit per chunk a d=1024, fp16. ~4 GB di RAM/disco aggiuntivi per un indice da un miliardo di chunk.

Tempo di build dell'indice

Trascurabile

La bitmask è calcolata al momento dell'emissione del chunk da campi metadata già disponibili.

Compute al momento della query

O(1) per candidato

Test di ammissibilità bitwise; ef adattivo aggiunge una costante dipendente dalla policy.

Storage di audit

~1 KB/query

~1,2 KB/query nel logging di produzione dove ogni chunk recuperato porta anche similarity score e bit di policy.

Riproducibilità

Tutti gli esperimenti girano su Amazon Bedrock eu-west-3, senza GPU interne nel loop:

  • Embedding: cohere.embed-multilingual-v3 (1024 dimensioni, L²-normalizzato)
  • Generatore: amazon.nova-micro-v1:0 (temperatura 0, max_tokens=80)
  • Giudice di disclosure dell'output: amazon.nova-lite-v1:0 con rubrica JSON strutturata (κ=0,81 vs. label dell'autore su 200 chiamate validate manualmente)
  • Indice: hnswlib con M=32, efConstruction=200, efSearch=64
  • Corpus: 6.000 filings SEC → 26.595 chunk attraverso 877 filer unici, sette trimestri (2024Q3–2026Q1)
  • Spesa Bedrock totale per riproduzione completa: ~3 USD

Cosa significa per il tuo stack

Se gestisci un sistema RAG che tocca:

  • Giurisdizioni UE (GDPR Articoli 5, 6, 22 + AI Act Articoli 12–15)
  • Servizi finanziari (Reg FD, FINRA Rule 2241, SOX / PCAOB AS 2820)
  • Sanità (HIPAA, GDPR Articolo 9 dati di categoria speciale)
  • Residenza dati cross-border (UE/US/UK/CA/Altri)

…la compliance non è più qualcosa che puoi aggiungere a posteriori. La codifica bitmask di CARAG si retrofitta su un indice denso esistente in giorni, non mesi, e l'audit log è verificabile sotto l'Articolo 12 dell'AI Act europeo.

Cita questo lavoro

@techreport{bhardwaj2026carag,
  author      = {Bhardwaj, Aru},
  title       = {Compliance-Aware Retrieval-Augmented Generation
                 for Regulated Financial-Reporting Corpora:
                 A Real-World Evaluation on SEC EDGAR Filings},
  institution = {Insightrix},
  year        = {2026},
  type        = {Working Draft},
  address     = {Paris, France},
  url         = {https://arubhardwaj.eu/research/compliance-aware-rag-sec-edgar}
}

Porta architetture in stile CARAG nel tuo stack

Questo è il tipo di architettura che deploy come Fractional CTO. Se il tuo team gestisce un sistema RAG che tocca dati regolamentati — UE, sanità, finanza, o cross-border — parliamone.

Aru Bhardwaj

Fractional CTO architecting sovereign AI systems for startups and scale-ups across Europe. Custom ML, agentic RAG, and secure LLM infrastructure. 7+ years turning complex data into production intelligence.

Malt
Upwork

Contact

Services

  • Fractional CTO & AI Strategy
  • MVP Development & Rapid Prototyping
  • Sovereign LLM Deployment (OVHcloud, Scaleway)
  • Multi-Cloud AI (AWS Bedrock, Vertex AI, Azure)
  • RAG Pipelines & Autonomous Agents
  • GDPR & EU AI Act Compliance
  • Generative AI & Prompt Engineering
  • Machine Learning & Predictive Analytics

Monthly playbook

Practical AI essays for founders and tech leaders. One email a month.

Saggi tattici sull'AI, ogni mese.

© 2026 Insightrix SASU. All rights reserved.Aru Bhardwaj, Fractional CTO & AI Strategist

60 Rue François Ier, 75008 Paris, France · SIRET 989 236 856 00013 · TVA FR42989236856