Compliance-Aware Retrieval-Augmented Generation for Regulated Financial-Reporting Corpora: A Real-World Evaluation on SEC EDGAR Filings

Q: Do you work on pure equity?

I love working with ambitious founders, and I happily structure hybrid engagements — a reduced service fee combined with equity — when the fit is right. Pure-equity arrangements, however, aren't something I take on. A service fee is required on every project: it ensures focused delivery, protects both sides against misaligned timelines, and keeps the engagement sustainable the same way any senior technical hire is compensated. If you're an early-stage founder, let's talk — there's almost always a structure that works.

Q: How much does a Fractional CTO cost in Europe?

Hourly consulting is €150/hour, day rate is €700/day. Ongoing Fractional CTO retainers start from about €2,100/month for a 2-3 days/month minimum and scale up with the cadence — a 1-day-a-week engagement typically lands between €5,000–€8,000 per month depending on scope. Partnership deals (reduced fee + equity) are available for aligned early-stage startups. All prices exclude VAT and French TVA applies where relevant; EU B2B clients with a valid intra-community VAT number benefit from reverse charge.

Q: Fractional CTO vs full-time CTO — which should I hire?

Hire a full-time CTO when the role genuinely needs 40+ hours/week of executive tech leadership — usually post-Series A with 10+ engineers, a real product in market, and a 3-year roadmap. Hire a Fractional CTO when you need senior technical leadership but: you're pre-seed to Series A, your engineering team is under 10 people, you want to validate the product before committing to a cap-table-impacting hire, or you need a specific expertise (AI strategy, EU compliance, sovereign cloud) that a generalist full-time CTO wouldn't bring.

Q: How does the Partnership model work?

It's a hybrid engagement: a reduced cash rate (typically 30-40% of my standard) combined with equity. The exact split is discussed case by case after we've talked through your stage, timeline, runway, and goals. The service-fee component is always present; it's what keeps the engagement focused and fair to both sides.

Q: What's a typical engagement duration?

Consultations run 30 or 60 minutes. MVPs typically ship in 4-8 weeks. Fractional CTO engagements are usually 2-3 days per month minimum, with the cadence scaling up based on traction and fit. Shorter sprint engagements (1-2 weeks) are also possible for well-scoped prototypes.

Q: Can you help with EU AI Act compliance?

Yes. I help companies classify their AI systems by risk tier (prohibited / high-risk / limited-risk / minimal-risk), implement the technical documentation and post-market monitoring required by Articles 9-15, align with GPAI obligations for foundation-model users, and produce the DPIA, Transfer Impact Assessments (Schrems II), and Article 28 DPAs needed. I also cross-walk with GDPR, NIS2, DORA (for financial services), and ISO/IEC 42001 / 23894. Sign-off always rests with your DPO or legal counsel; what I deliver is a defensible, documented compliance posture.

Q: Can you help us migrate from OpenAI to sovereign infrastructure?

Yes — this is becoming a common request from European companies facing compliance pressure or customer procurement scrutiny. Typical path: audit current OpenAI/Anthropic usage, map workloads by quality/latency/cost sensitivity, select replacement targets (Mistral Large for most chat, self-hosted Llama-3 or Mixtral for sensitive data, Claude Sonnet via Bedrock EU where acceptable), build an eval harness that proves parity, migrate behind a feature flag, and cut over gradually. End state: zero prompt/response egress to non-EU jurisdictions, with an auditable trail.

Q: Do you work with non-technical founders?

Yes — this is one of my most common engagements. Non-technical founders hire me to make the build vs buy decision, run the first hiring, set up the stack, ship the MVP, and represent the company technically with investors, partners, and early customers. I translate between product intent and engineering reality, and write everything in plain language so the founder stays in the loop without needing to code.

Q: Do you work remote or on-site?

Remote-first, based in Paris. I'm open to on-site days in Paris and short on-site sprints across Europe for the right engagements. Most clients are 100% remote with weekly syncs and async daily updates.

Q: How quickly can you start?

Usually within 1-2 weeks of signing. For urgent MVPs or discovery sprints I can often kick off within days, starting with a scoped 3-5 day discovery phase before we commit to the full build.

Bhardwaj, Aru

Torna alla ricerca

Ricerca · Bozza di lavoro · 2026

Compliance-Aware Retrieval-Augmented Generation per corpora di reporting finanziario regolamentato

Una valutazione reale sui depositi SEC EDGAR.

Aru Bhardwaj · Insightrix, Francia · 33 pagine · 2026

Bozza di lavoro — feedback benvenuti a bonjour@arubhardwaj.eu

ENIl PDF è disponibile solo in inglese. Di seguito una sintesi tradotta dei punti chiave.

81.12%

0.00%

Violazioni dei vincoli

21.29%

0.00%

Disclosure di output

—

4.8 pts

Costo F1

—

0 ms

Overhead di latenza p95

In sintesi

Il RAG standard recupera ciò che è più rilevante. Nelle industrie regolamentate, ciò che è più rilevante non è necessariamente ciò che è permesso. Un passaggio può essere il match migliore per una query e comunque inammissibile per quell'utente, per quello scopo, in quella sessione — sotto GDPR, AI Act europeo, Reg FD, FINRA, SOX o HIPAA.

CARAG (Compliance-Aware RAG) è un'architettura a cinque stadi che tratta la compliance come proprietà di primo livello dell'indice, del retriever, del generatore e dell'audit log. Il paper rilascia un benchmark costruito su 6.000 depositi SEC EDGAR reali (26.595 chunk in sette trimestri), con vettori di policy derivati da campi di submission documentati anziché da distribuzioni sintetiche.

Sul benchmark principale, CARAG riduce il tasso di violazione dei vincoli dall'81,12% allo 0,00% e il tasso di disclosure dell'output dal 21,29% allo 0,00%, sacrificando solo 4,8 punti F1 e aggiungendo 0 ms di latenza al 95° percentile rispetto a una baseline RAG vanilla.

Perché conta in produzione

Tre deployment reali motivano l'architettura — operativamente comuni ma architetturalmente difficili per il RAG vanilla:

1
Sell-side equity research. Un retriever vanilla espone il 10-K più recente di un analista insieme a un modello commissionato privatamente sul deal team del quale l'analista non fa parte, e un 10-Q stantio sostituito da un emendamento. Pubblicare dal secondo genera una multa regolatoria; dal terzo, un errore analitico.
2
Supporto decisionale clinico. Un infermiere fa una query su un paziente. Il retriever espone note rilevanti di uno specialista al di fuori della relazione di cura — inammissibile sotto la regola minimum-necessary di HIPAA, anche all'interno dello stesso ospedale.
3
Analytics cross-border. Un asset manager globale a Francoforte esegue RAG su filings EU-, US- e Singapore-resident. Sotto l'Articolo 6 GDPR, la base giuridica con cui un documento EU è stato indicizzato vincola gli scopi per cui può essere recuperato — per documento, non per utente.

In tutti e tre i casi i documenti sono legittimi, l'utente è autorizzato, la domanda è ragionevole — e l'intersezione al momento del recupero è comunque impermissibile. Quell'intersezione è ciò che il RAG deve imparare a calcolare.

Quattro modalità di fallimento del RAG ignaro della compliance

F1

Leakage al momento dell'indicizzazione

Un documento viene indicizzato senza verificare se il contesto di ingestion autorizzava il sistema a farlo. Una volta nell'indice, ogni query downstream lo vede indipendentemente dalla policy.

F2

Leakage al momento del retrieval

Il chunk è etichettato correttamente ma il retriever non consulta l'etichetta, quindi appare nei top-k per query la cui policy lo proibisce. Il fallimento modale del RAG vanilla.

F3

Leakage in generazione da contesto inammissibile

Il retriever filtra correttamente ma il generatore parafrasa tra snippet e sintetizza contenuto originato in un chunk inammissibile.

F4

Leakage parametrico in generazione

Il retriever non restituisce nulla di utile, ma il decoder emette con sicurezza un fatto recuperato dal suo pre-training — talvolta esso stesso inammissibile.

CARAG chiude F1–F3 strutturalmente e F4 probabilisticamente.

La pipeline CARAG a cinque stadi

1
Ingestion + etichettatura della policy
Ogni chunk riceve un vettore di policy a 27 bit impacchettato in una parola macchina a 32 bit — derivato deterministicamente da campi metadata documentati. ~0,4% di overhead di storage a d=1024, fp16.
2
Indice metadata-aware (HNSW)
Grafo hierarchical navigable small-world standard (M=32, efConstruction=200), con la bitmask di policy co-localizzata accanto a ciascun vettore per test di ammissibilità O(1) per candidato.
3
Inferenza della policy
Mappa (query, ruolo utente, scopo della sessione) in una coppia di maschere (M_req, M_for) tramite un lookup deterministico ruolo-policy più un modulatore di sessione che applica raffinamenti query-condizionali come la deal-list attiva.
4
Retriever sensibile ai vincoli
Test di ammissibilità bitwise valutato dentro il loop interno della traversata HNSW — prima che l'heap dei risultati venga aggiornato. L'espansione adattiva di ef preserva il recall sotto policy strette.
5
Generatore guardato + audit log Merkle-anchored
Il generatore (Amazon Nova Micro) vede esplicitamente i bucket ammissibile e inammissibile ed è istruito a usare solo il primo. Ogni query produce un record append-only con ancoraggio Merkle sufficiente per l'Articolo 12 dell'AI Act europeo.

Risultati principali

Quattro sistemi sul benchmark di compliance SEC — n = 600 query, k = 8 chunk recuperati per query. CARAG ottiene il CVR e l'ODR più bassi sacrificando solo una piccola costante di token-F1.

Sistema	CVR ↓	ODR ↓	Rifiuto	F1	p95 (ms)
B0 Vanilla RAG	81.12%	21.29%	24.90%	0.096	41,498
B1 Post-filter	0.00%	0.00%	23.69%	0.085	41,219
B2 Pre-filter (RBAC)	32.53%	9.64%	22.89%	0.085	41,944
CARAG (full)	0.00%	0.00%	40.56%	0.048	41,005

Tabella 2, Sezione 6.1. CVR = Tasso di violazione dei vincoli, ODR = Tasso di disclosure dell'output. Il pre-filter (B2) raggiunge lo stesso pavimento CVR di CARAG ma al costo di un calo netto di F1 perché una partizione di ruolo statica è troppo grossolana per recuperare l'ammissibilità query-condizionale.

Dove vive il costo

Disaggregando per strato di query (loose / medium / tight) si rivela dove cade il costo architetturale della compliance. Sulle query loose — dove la policy ammette la maggior parte dei chunk rilevanti — l'F1 di CARAG segue da vicino la baseline vanilla. Il divario si allarga leggermente sulle query medium e si apre completamente sulle query tight, dove il set rilevante è genuinamente sparso.

Quello strato tight è anche dove CVR e ODR contano di più: ogni violazione è, per costruzione, semanticamente significativa — un chunk inammissibile contiene la risposta. Il costo si concentra esattamente dove la policy restringe sostanzialmente il set rilevante, non sulle query di due-diligence ordinarie.

Economia di produzione

Overhead di storage

~0,4%

Una parola a 32 bit per chunk a d=1024, fp16. ~4 GB di RAM/disco aggiuntivi per un indice da un miliardo di chunk.

Tempo di build dell'indice

Trascurabile

La bitmask è calcolata al momento dell'emissione del chunk da campi metadata già disponibili.

Compute al momento della query

O(1) per candidato

Test di ammissibilità bitwise; ef adattivo aggiunge una costante dipendente dalla policy.

Storage di audit

~1 KB/query

~1,2 KB/query nel logging di produzione dove ogni chunk recuperato porta anche similarity score e bit di policy.

Riproducibilità

Tutti gli esperimenti girano su Amazon Bedrock eu-west-3, senza GPU interne nel loop:

Embedding: cohere.embed-multilingual-v3 (1024 dimensioni, L²-normalizzato)
Generatore: amazon.nova-micro-v1:0 (temperatura 0, max_tokens=80)
Giudice di disclosure dell'output: amazon.nova-lite-v1:0 con rubrica JSON strutturata (κ=0,81 vs. label dell'autore su 200 chiamate validate manualmente)
Indice: hnswlib con M=32, efConstruction=200, efSearch=64
Corpus: 6.000 filings SEC → 26.595 chunk attraverso 877 filer unici, sette trimestri (2024Q3–2026Q1)
Spesa Bedrock totale per riproduzione completa: ~3 USD

Cosa significa per il tuo stack

Se gestisci un sistema RAG che tocca:

→Giurisdizioni UE (GDPR Articoli 5, 6, 22 + AI Act Articoli 12–15)
→Servizi finanziari (Reg FD, FINRA Rule 2241, SOX / PCAOB AS 2820)
→Sanità (HIPAA, GDPR Articolo 9 dati di categoria speciale)
→Residenza dati cross-border (UE/US/UK/CA/Altri)

…la compliance non è più qualcosa che puoi aggiungere a posteriori. La codifica bitmask di CARAG si retrofitta su un indice denso esistente in giorni, non mesi, e l'audit log è verificabile sotto l'Articolo 12 dell'AI Act europeo.

Cita questo lavoro

@techreport{bhardwaj2026carag,
  author      = {Bhardwaj, Aru},
  title       = {Compliance-Aware Retrieval-Augmented Generation
                 for Regulated Financial-Reporting Corpora:
                 A Real-World Evaluation on SEC EDGAR Filings},
  institution = {Insightrix},
  year        = {2026},
  type        = {Working Draft},
  address     = {Paris, France},
  url         = {https://arubhardwaj.eu/research/compliance-aware-rag-sec-edgar}
}

Porta architetture in stile CARAG nel tuo stack

Questo è il tipo di architettura che deploy come Fractional CTO. Se il tuo team gestisce un sistema RAG che tocca dati regolamentati — UE, sanità, finanza, o cross-border — parliamone.