Data Warehouse
Il progetto SOMMOSSA ha costruito un ampio data warehouse sul dibattito pubblico online sulla corruzione in Italia, basato sull’analisi dei contenuti pubblicati su Facebook tra il 1° gennaio 2021 e il 31 dicembre 2023. Il database rappresenta una delle principali infrastrutture empiriche del progetto e consente di osservare in modo sistematico come la corruzione venga discussa, interpretata e resa visibile nello spazio pubblico digitale.
Il corpus
Il data warehouse raccoglie 369.602 post contenenti parole chiave legate alla corruzione (tra cui “corruzione”, “tangenti”, “abuso d’ufficio”, “anticorruzione”, “clientelismo”, “peculato” ecc.). I contenuti provengono da pagine Facebook, gruppi pubblici e profili verificati monitorati tramite CrowdTangle.
I post sono stati pubblicati da 36.984 attori diversi.
Chi parla di corruzione online
Il panorama degli attori è estremamente eterogeneo. Le community e i gruppi Facebook costituiscono la componente più numerosa e più attiva in termini di produzione di contenuti, confermando il ruolo centrale della partecipazione dal basso nel dibattito sulla corruzione. Accanto a questi attori, risultano rilevanti:
- media locali e nazionali;
- giornalisti;
- politici e partiti;
- associazioni e organizzazioni civiche;
- attori alternativi o non istituzionali (tra cui pagine di disinformazione).
Dal punto di vista dell’engagement, tuttavia, i contenuti pubblicati da attori politici, giornalisti e figure pubbliche tendono a generare livelli di interazione mediamente più elevati, indicando una distribuzione asimmetrica della visibilità nel dibattito online.
Temi e narrazioni
Le conversazioni sulla corruzione risultano fortemente concentrate su alcuni ambiti ricorrenti. In particolare, i riferimenti a:
- indagini giudiziarie,
- processi,
- arresti,
- criminalità organizzata
costituiscono i nuclei principali del discorso pubblico. La corruzione emerge quindi soprattutto in relazione a scandali e procedimenti giudiziari, piuttosto che a politiche di prevenzione o riforme istituzionali.
Accanto a questi temi, il dibattito si intreccia con questioni di attualità e policy (sanità, amministrazioni locali, PNRR, welfare), mostrando come la corruzione venga frequentemente utilizzata come chiave interpretativa per leggere problemi politici e sociali più ampi.
Tra i reati citati più spesso emergono le tangenti, seguite da peculato, voto di scambio, concussione e clientelismo, a conferma del forte peso simbolico di alcune categorie nel linguaggio pubblico sulla corruzione.
Un’infrastruttura per la ricerca
Il data warehouse SOMMOSSA consente di analizzare in modo integrato:
- attori,
- contenuti,
- interazioni,
- dinamiche temporali del dibattito.
Questa infrastruttura rappresenta una base fondamentale per le attività di ricerca del progetto e per lo sviluppo di strumenti di analisi e visualizzazione rivolti alla comunità scientifica, alla società civile e agli attori impegnati nella promozione della trasparenza e dell’integrità pubblica.
La descrizione dettagliata dei dati è disponibile qui
È possibile scaricare l’intero dataset accedendo a questo link: https://drive.google.com/drive/folders/1E0ovktGt6sHh5Ic9Y-FJSvqaso8b43lk





