Problème
Un client entreprise avait besoin de génération augmentée par récupération sur un corpus interne de 1,2M documents où l'éligibilité au moment de la récupération — qui peut voir quoi, pour quelle finalité — compte autant que la pertinence. Le RAG standard échoue ici : le passage le plus pertinent peut être le plus inadmissible juridiquement.
Approche
Architecture en cinq étapes traitant la conformité comme propriété de premier ordre de l'index, du récupérateur, du générateur et du journal d'audit. Chaque chunk porte une bitmask de politique 27 bits empaquetée dans un mot 32 bits. Tests d'admissibilité bitwise évalués dans la boucle interne HNSW, avant la mise à jour du heap de résultats. Le générateur voit explicitement les buckets admissibles et inadmissibles séparés, avec une refusal head lorsqu'aucune évidence admissible n'existe. Chaque requête produit un journal d'audit ancré Merkle, suffisant pour l'Article 12 de l'AI Act européen.
Stack
Qdrant with custom HNSW patches · FastAPI · Claude / GPT-4 · Python audit-log substrate
Résultat
Latence de récupération p95 sous 300 ms sur un graphe de 2,5M nœuds. Posture de conformité de niveau production, défendable en audit par conception. L'architecture a été validée indépendamment sur un benchmark public de 26 595 chunks issus de dépôts SEC EDGAR réels — publié en brouillon de travail, démontrant que la même architecture réduit les violations de contraintes de 81,12 % à 0,00 % et les divulgations en sortie de 21,29 % à 0,00 % pour un coût F1 de 4,8 points.