Data Warehouse

Il progetto SOMMOSSA ha costruito un ampio data warehouse sul dibattito pubblico online sulla corruzione in Italia, basato sull’analisi dei contenuti pubblicati su Facebook tra il 1° gennaio 2021 e il 31 dicembre 2023. Il database rappresenta una delle principali infrastrutture empiriche del progetto e consente di osservare in modo sistematico come la corruzione venga discussa, interpretata e resa visibile nello spazio pubblico digitale.

Il corpus

Il data warehouse raccoglie 369.602 post contenenti parole chiave legate alla corruzione (tra cui “corruzione”, “tangenti”, “abuso d’ufficio”, “anticorruzione”, “clientelismo”, “peculato” ecc.). I contenuti provengono da pagine Facebook, gruppi pubblici e profili verificati monitorati tramite CrowdTangle.

I post sono stati pubblicati da 36.984 attori diversi.

Chi parla di corruzione online

Il panorama degli attori è estremamente eterogeneo. Le community e i gruppi Facebook costituiscono la componente più numerosa e più attiva in termini di produzione di contenuti, confermando il ruolo centrale della partecipazione dal basso nel dibattito sulla corruzione. Accanto a questi attori, risultano rilevanti:

  • media locali e nazionali;
  • giornalisti;
  • politici e partiti;
  • associazioni e organizzazioni civiche;
  • attori alternativi o non istituzionali (tra cui pagine di disinformazione).

Dal punto di vista dell’engagement, tuttavia, i contenuti pubblicati da attori politici, giornalisti e figure pubbliche tendono a generare livelli di interazione mediamente più elevati, indicando una distribuzione asimmetrica della visibilità nel dibattito online.

Temi e narrazioni

Le conversazioni sulla corruzione risultano fortemente concentrate su alcuni ambiti ricorrenti. In particolare, i riferimenti a:

  • indagini giudiziarie,
  • processi,
  • arresti,
  • criminalità organizzata

costituiscono i nuclei principali del discorso pubblico. La corruzione emerge quindi soprattutto in relazione a scandali e procedimenti giudiziari, piuttosto che a politiche di prevenzione o riforme istituzionali.

Accanto a questi temi, il dibattito si intreccia con questioni di attualità e policy (sanità, amministrazioni locali, PNRR, welfare), mostrando come la corruzione venga frequentemente utilizzata come chiave interpretativa per leggere problemi politici e sociali più ampi.

Tra i reati citati più spesso emergono le tangenti, seguite da peculato, voto di scambio, concussione e clientelismo, a conferma del forte peso simbolico di alcune categorie nel linguaggio pubblico sulla corruzione.

Un’infrastruttura per la ricerca

Il data warehouse SOMMOSSA consente di analizzare in modo integrato:

  • attori,
  • contenuti,
  • interazioni,
  • dinamiche temporali del dibattito.

Questa infrastruttura rappresenta una base fondamentale per le attività di ricerca del progetto e per lo sviluppo di strumenti di analisi e visualizzazione rivolti alla comunità scientifica, alla società civile e agli attori impegnati nella promozione della trasparenza e dell’integrità pubblica.

La descrizione dettagliata dei dati è disponibile qui

È possibile scaricare l’intero dataset accedendo a questo link: https://drive.google.com/drive/folders/1E0ovktGt6sHh5Ic9Y-FJSvqaso8b43lk