I modelli di intelligenza artificiale o3 e o4-mini recentemente lanciati da OpenAI sono soggetti a allucinazioni più frequentemente rispetto ai precedenti modelli di ragionamento dell’azienda, secondo quanto riportato da TechCrunch.
I creatori di ChatGPT hanno lanciato i modelli mercoledì (16 aprile), modelli progettati per fermarsi e scorrere le domande prima di rispondere.
Tuttavia, secondo i test interni di OpenAI, i due nuovi modelli hallucinano o inventano cose molto più frequentemente rispetto anche ai modelli senza ragionamento, come GPT-4o. L’azienda non ha idea del perché ciò accada.
Le allucinazioni si sono rivelate uno dei problemi più grandi e difficili da risolvere nel campo dell’intelligenza artificiale, colpendo anche i sistemi più avanzati di oggi. Storicamente, ogni nuovo modello ha registrato un leggero miglioramento in termini di allucinazioni, con un numero inferiore rispetto al suo predecessore. Ma questo non sembra essere il caso di o3 e o4-mini.
I modelli di ragionamento dovevano essere più precisi nelle risposte
I modelli di ragionamento di OpenAI sono presentati come più precisi rispetto ai modelli senza ragionamento, come GPT-4o e GPT-4.5, poiché utilizzano più calcoli per “dedicare più tempo a riflettere prima di rispondere”, come descritto nell’annuncio o1. Invece di basarsi in larga misura su metodi stocastici per fornire una risposta, i modelli della serie “o” sono addestrati a “affinare il loro processo di pensiero, provare diverse strategie e riconoscere i propri errori”.
Tuttavia, la scheda di sistema per GPT-4.5, pubblicata a febbraio, mostra un tasso di allucinazioni del 19% nella valutazione PersonQA. La stessa scheda la confronta anche con GPT-4o, che aveva un tasso di allucinazioni del 30%.
Forse ancora più preoccupante è il fatto che il produttore di ChatGPT non sappia realmente perché ciò accada. In un rapporto tecnico, OpenAI ha dichiarato che “sono necessarie ulteriori ricerche” per capire perché le allucinazioni peggiorano con l’espansione dei modelli di ragionamento.
“La nostra ipotesi è che il tipo di apprendimento per rinforzo utilizzato per i modelli della serie o potrebbe amplificare problemi che sono solitamente attenuati (ma non completamente eliminati) dai processi standard di post-addestramento”, ha dichiarato un ex dipendente di OpenAI, citato dalla pubblicazione.
Gli ultimi modelli con ragionamento hanno più allucinazioni rispetto ai loro predecessori
Nel suo rapporto tecnico su o3 e o4-mini, OpenAI scrive che “sono necessarie ulteriori ricerche” per capire perché le allucinazioni peggiorano man mano che i modelli di ragionamento scalano. O3 e o4-mini hanno prestazioni migliori in alcuni campi, tra cui compiti legati alla codifica e alla matematica. Tuttavia, poiché “fanno più affermazioni in generale”, sono spesso portati a fare “affermazioni più precise, ma anche affermazioni più imprecise/allucinazioni”, secondo il rapporto.
OpenAI ha scoperto che o3 ha avuto allucinazioni in risposta al 33% delle domande su PersonQA, il benchmark interno dell’azienda per misurare l’accuratezza delle conoscenze di un modello sulle persone. Si tratta di circa il doppio del tasso di allucinazioni dei precedenti modelli di ragionamento di OpenAI, o1 e o3-mini, che hanno ottenuto punteggi rispettivamente del 16% e del 14,8%. O4-mini ha ottenuto risultati ancora peggiori su PersonQA, con allucinazioni nel 48% dei casi, ovvero circa la metà delle risposte.
Test condotti da terzi confermano i problemi
I test condotti da Transluce, un laboratorio di ricerca senza scopo di lucro nel campo dell’intelligenza artificiale, hanno anche scoperto prove che o3 tende a inventare le azioni intraprese nel processo di ottenimento delle risposte. In un esempio, Transluce ha osservato che o3 ha affermato di aver eseguito del codice su un MacBook Pro del 2021 “al di fuori di ChatGPT”, quindi ha copiato i numeri nella sua risposta. Sebbene o3 abbia accesso ad alcuni strumenti, non può farlo.
Sarah Schwettmann, cofondatrice di Transluce, ha aggiunto che il tasso di allucinazioni di o3 può renderlo meno utile di quanto sarebbe altrimenti.
Kian Katanforoosh, assistente professore a Stanford e CEO della startup di sviluppo professionale Workera, ha dichiarato a TechCrunch che il suo team sta già testando o3 nei propri flussi di lavoro di codifica e che lo ha trovato un passo avanti rispetto alla concorrenza. Tuttavia, Katanforoosh afferma che o3 tende a generare link web errati. Il modello fornisce un link che, quando viene cliccato, non funziona.
Le allucinazioni possono aiutare i modelli a raggiungere idee interessanti ed essere creativi nel loro “pensiero”, ma rendono anche alcuni modelli difficili da vendere alle aziende nei mercati in cui l’accuratezza è fondamentale. Ad esempio, uno studio legale probabilmente non sarebbe soddisfatto di un modello che introduce molti errori fattuali nei contratti dei clienti.
Una soluzione potrebbe essere la ricerca sul web
Un approccio promettente per aumentare l’accuratezza dei modelli è quello di dotarli di capacità di ricerca sul web. GPT-4o di OpenAI con ricerca sul web raggiunge un’accuratezza del 90% su SimpleQA, un altro benchmark di precisione di OpenAI. Potenzialmente, la ricerca potrebbe anche migliorare i tassi di allucinazioni dei modelli di ragionamento, almeno nei casi in cui gli utenti sono disposti a esporre le richieste a un fornitore di ricerca di terze parti.
Se l’espansione dei modelli di ragionamento continua davvero ad aggravare le allucinazioni, la ricerca di una soluzione sarà ancora più urgente.
“L’approccio alle allucinazioni in tutti i nostri modelli è un’area di ricerca in corso e stiamo lavorando continuamente per migliorarne l’accuratezza e l’affidabilità”, ha dichiarato il portavoce di OpenAI, Niko Felix, in una e-mail inviata a TechCrunch.
Nell’ultimo anno, l’industria dell’intelligenza artificiale (IA) in senso lato si è concentrata sui modelli di ragionamento, dopo che le tecniche di miglioramento dei modelli tradizionali di IA hanno iniziato a dare risultati sempre meno soddisfacenti. Il ragionamento migliora le prestazioni del modello in una varietà di compiti senza richiedere enormi quantità di calcoli e dati durante l’addestramento. Tuttavia, sembra che il ragionamento possa anche portare a un aumento delle allucinazioni, il che rappresenta una sfida.