Problème
Une ONG a mené une enquête à grande échelle dans plusieurs régions et a reçu des dizaines de milliers de réponses en texte libre à des questions ouvertes. Les équipes communication et politique avaient besoin de faire émerger thèmes, sentiment et variation régionale — mais le faisaient par tableur pour les vagues précédentes, manquant des patterns dans la longue traîne.
Approche
Pipeline NLP combinant topic modelling (clustering style BERTopic) avec catégorisation pilotée par LLM contre une taxonomie curée à la main. Breakdowns de sentiment par région et démographique avec scoring de confiance. Sortie structurée à la fois pour consommation executive-summary rapide et analyse approfondie d'équipe politique avec citations aux réponses originales.
Stack
Python · spaCy · BERTopic · Claude for taxonomy classification · Pandas · region-level dashboards
Résultat
L'ONG a fait émerger des thèmes régionaux que les vagues précédentes avaient manqués — particulièrement dans les réponses de longue traîne que le coding par tableur avait regroupées en "autre". La combinaison classification + topic-model a donné à l'équipe politique à la fois le roll-up structuré et la queue non structurée sur laquelle agir.