Problema
Un cliente enterprise aveva bisogno di retrieval-augmented generation su un corpus interno di 1,2M documenti dove l'ammissibilità al momento del retrieval — chi può vedere cosa, per quale scopo — conta quanto la rilevanza. Il RAG off-the-shelf si rompe qui: il passaggio più rilevante può essere il più inammissibile dal punto di vista legale.
Approccio
Costruita un'architettura a cinque stadi che tratta la compliance come proprietà di primo livello di indice, retriever, generatore e audit log. Ogni chunk porta una bitmask di policy a 27 bit impacchettata in una parola da 32 bit. Test di ammissibilità bitwise valutati dentro il loop interno HNSW, prima che l'heap dei risultati venga aggiornato. Il generatore vede esplicitamente bucket ammissibili e inammissibili separati, con una refusal head quando non esistono evidenze ammissibili. Ogni query produce un audit log con ancoraggio Merkle, sufficiente per l'Articolo 12 dell'AI Act europeo.
Stack
Qdrant with custom HNSW patches · FastAPI · Claude / GPT-4 · Python audit-log substrate
Risultato
Latenza di retrieval p95 sotto i 300 ms su un grafo da 2,5M nodi. Postura di compliance production-grade, difendibile in audit per design. L'architettura è stata validata indipendentemente su un benchmark pubblico di 26.595 chunk da filings SEC EDGAR reali — pubblicato come bozza di lavoro, dimostrando che la stessa architettura riduce le violazioni dei vincoli dall'81,12% allo 0,00% e le disclosure di output dal 21,29% allo 0,00% a un costo F1 di 4,8 punti.