Problem
Eine NGO führte eine groß angelegte Umfrage in mehreren Regionen durch und erhielt Zehntausende Freitext-Antworten auf offene Fragen. Die Kommunikations- und Policy-Teams mussten Themen, Sentiment und regionale Variation an die Oberfläche bringen — taten es aber per Spreadsheet für vorherige Wellen und verpassten Muster im Long-Tail.
Ansatz
NLP-Pipeline, die Topic-Modelling (BERTopic-Style-Clustering) mit LLM-getriebener Kategorisierung gegen eine handgepflegte Taxonomie kombiniert. Sentiment-Aufschlüsselung pro Region und Demografie mit Confidence-Scoring. Output strukturiert sowohl für schnellen Executive-Summary-Konsum als auch für Tiefen-Analyse des Policy-Teams mit Zitaten zurück zu Originalantworten.
Stack
Python · spaCy · BERTopic · Claude for taxonomy classification · Pandas · region-level dashboards
Ergebnis
Die NGO brachte regionale Themen an die Oberfläche, die frühere Wellen verpasst hatten — besonders in den Long-Tail-Antworten, die das Spreadsheet-basierte Coding in „andere" zusammengefasst hatte. Die Kombination Klassifikation + Topic-Model gab dem Policy-Team sowohl den strukturierten Roll-up als auch das unstrukturierte Tail, auf dem zu handeln war.