Problema
Un'ONG ha condotto un sondaggio su larga scala in più regioni e ha ricevuto decine di migliaia di risposte free-text a domande aperte. I team comunicazione e policy avevano bisogno di far emergere temi, sentiment e variazione regionale — ma lo facevano via spreadsheet per le wave precedenti, perdendo pattern nella long tail.
Approccio
Pipeline NLP che combina topic modelling (clustering BERTopic-style) con categorizzazione LLM-driven contro una tassonomia curata a mano. Breakdown di sentiment per regione e demografica con confidence scoring. Output strutturato sia per consumo executive-summary rapido sia per analisi deep-dive del team policy con citazioni alle risposte originali.
Stack
Python · spaCy · BERTopic · Claude for taxonomy classification · Pandas · region-level dashboards
Risultato
L'ONG ha fatto emergere temi regionali che le wave precedenti avevano mancato — particolarmente nelle risposte long-tail che il coding spreadsheet-based aveva raggruppato in "altro". La combinazione classificazione + topic-model ha dato al team policy sia il roll-up strutturato sia la coda non strutturata su cui agire.