- L'allarme dalla Scuola IMT di Lucca e da Cambridge
- Numeri che fanno riflettere: fino al 90% di risposte false
- Come l'IA supera i controlli tradizionali
- Bastano poche risposte fraudolente per inquinare tutto
- Le contromisure possibili
- Domande frequenti
L'allarme dalla Scuola IMT di Lucca e da Cambridge
C'è un problema serio che incombe sulla ricerca accademica e, più in generale, su chiunque si affidi ai sondaggi online per raccogliere dati. E non è un problema marginale. Stando a quanto emerge da uno studio condotto congiuntamente dalla Scuola IMT Alti Studi di Lucca e dall'Università di Cambridge, l'intelligenza artificiale è ormai in grado di falsificare le risposte ai questionari distribuiti via web con un livello di sofisticazione tale da rendere pressoché impossibile distinguerle da quelle compilate da esseri umani reali.
L'allarme, lanciato dai ricercatori delle due istituzioni, tocca un nervo scoperto del mondo accademico e non solo. I sondaggi online rappresentano oggi uno degli strumenti più utilizzati nelle scienze sociali, nel marketing, nelle indagini di mercato e — aspetto tutt'altro che secondario — nella formulazione di politiche pubbliche, comprese quelle che riguardano il settore dell'istruzione e della formazione.
Numeri che fanno riflettere: fino al 90% di risposte false
I dati che emergono dalla ricerca sono a dir poco inquietanti. Secondo le stime dei ricercatori, tra il 30 e il 90% delle risposte raccolte attraverso sondaggi online potrebbe essere falso. Un intervallo amplissimo, certo, che dipende dalla tipologia del questionario, dalla piattaforma utilizzata e dai meccanismi di incentivazione economica offerti ai partecipanti. Ma anche la soglia inferiore — il 30% — è sufficiente a far tremare chiunque basi le proprie conclusioni su questi strumenti.
Non si tratta di una novità in senso assoluto: il fenomeno delle risposte fraudolente nei sondaggi online era noto da tempo, alimentato da bot rudimentali e da partecipanti interessati esclusivamente al compenso economico. La vera novità, come sottolineato dai ricercatori di Lucca e Cambridge, è che i sistemi di risposta basati sull'intelligenza artificiale hanno raggiunto — e in molti casi superato — le capacità umane di simulare risposte coerenti, plausibili e internamente consistenti.
Come l'IA supera i controlli tradizionali
Fino a pochi anni fa, individuare le risposte generate automaticamente era relativamente semplice. I bot tradizionali tendevano a completare i questionari in tempi troppo brevi, a fornire risposte casuali o a cadere nelle cosiddette trap questions, domande-trappola inserite appositamente per smascherare i compilatori distratti o automatizzati.
Oggi il quadro è radicalmente diverso. I modelli linguistici di ultima generazione — gli stessi che stanno trasformando il panorama della ricerca accademica sull'intelligenza artificiale — sono in grado di:
- Comprendere il contesto del questionario e adattare le risposte di conseguenza
- Simulare profili demografici coerenti, mantenendo consistenza interna tra età, professione, opinioni e stili di vita dichiarati
- Variare i tempi di compilazione per replicare il comportamento umano
- Superare le domande di controllo progettate proprio per filtrare le risposte automatiche
In sostanza, l'IA non si limita più a riempire caselle: costruisce un personaggio credibile e lo porta avanti dall'inizio alla fine del questionario. Un salto qualitativo che rende obsoleti molti dei filtri attualmente in uso.
Bastano poche risposte fraudolente per inquinare tutto
C'è un dato, tra quelli che emergono dallo studio, che merita un'attenzione particolare. I ricercatori hanno calcolato che un margine compreso tra il 3 e il 7% di risposte fraudolente è sufficiente per invalidare le conclusioni statistiche di un sondaggio. Sette risposte false su cento, nel caso peggiore. Tre su cento, nel caso migliore.
Se si incrocia questo dato con la stima secondo cui fino al 90% delle risposte potrebbe essere generato artificialmente, la portata del problema appare in tutta la sua gravità. Non si parla di una distorsione trascurabile, ma di un rischio sistemico che mina alla radice l'affidabilità di uno degli strumenti più diffusi nella ricerca contemporanea.
Le implicazioni si estendono ben oltre l'accademia. Pensiamo, ad esempio, alle rilevazioni sulla soddisfazione degli studenti universitari, ai questionari ministeriali sulla qualità della didattica, alle indagini INVALSI somministrate in formato digitale, ai sondaggi che orientano le scelte delle istituzioni scolastiche. Se la base dati è inquinata, le decisioni che ne derivano poggiano su fondamenta fragili.
Le contromisure possibili
I ricercatori della Scuola IMT e di Cambridge non si sono limitati a descrivere il problema. Tra le proposte avanzate per arginare il fenomeno, un ruolo centrale è assegnato all'analisi avanzata dei modelli di risposta. L'idea è di utilizzare la stessa intelligenza artificiale — stavolta come alleata — per individuare schemi ricorrenti, micro-anomalie nei pattern di compilazione e indicatori statistici di comportamento non genuino.
Altre contromisure ipotizzate comprendono:
- L'adozione di sistemi di verifica dell'identità più robusti prima dell'accesso al questionario
- L'inserimento di domande aperte a risposta libera, più difficili da gestire in modo convincente per un modello automatico — almeno per ora
- L'utilizzo di tecniche di fingerprinting digitale per identificare compilazioni provenienti dallo stesso dispositivo o dalla stessa infrastruttura
- Lo sviluppo di metriche di coerenza interna calibrate specificamente per rilevare le risposte generate dall'IA
La questione resta aperta, e non è affatto detto che le soluzioni tecnologiche riescano a tenere il passo con l'evoluzione dei modelli generativi. Si profila, piuttosto, una rincorsa continua tra chi progetta sondaggi e chi — o cosa — li compila fraudolentemente.
Per il mondo della ricerca, e in particolare per chi opera nel settore dell'istruzione e della formazione, si tratta di un campanello d'allarme che non può essere ignorato. La credibilità dei dati raccolti online è una precondizione per qualsiasi analisi seria. E oggi quella credibilità è sotto attacco come mai prima d'ora.
Domande frequenti
Perché l'intelligenza artificiale rappresenta un rischio per i sondaggi online?
I modelli di IA di ultima generazione sono in grado di compilare questionari online producendo risposte coerenti, realistiche e difficili da distinguere da quelle umane. Questo compromette l'affidabilità dei dati raccolti, poiché i tradizionali filtri anti-frode risultano inefficaci contro queste tecnologie.
Quante risposte false servono per invalidare un sondaggio?
Secondo lo studio della Scuola IMT di Lucca e dell'Università di Cambridge, è sufficiente che tra il 3 e il 7% delle risposte sia fraudolento per compromettere la validità statistica delle conclusioni del sondaggio.
Quali contromisure si possono adottare contro la frode nei sondaggi online?
Tra le strategie proposte dai ricercatori figurano l'analisi avanzata dei modelli di risposta tramite IA, sistemi di verifica dell'identità più rigorosi, l'uso di domande aperte e tecniche di fingerprinting digitale per tracciare le compilazioni sospette.
Questo problema riguarda anche i sondaggi nel settore dell'istruzione?
Sì. Qualsiasi rilevazione condotta tramite questionari online — dalle indagini sulla qualità della didattica ai sondaggi ministeriali sulla soddisfazione degli studenti — è potenzialmente esposta a questo rischio, con conseguenze dirette sulla qualità delle politiche educative che si basano su quei dati.