I dilemmi morali dell'IA: gli esperti di Harvard spiegano la misteriosa irrazionalità dell'intelligenza artificiale

Gli psicologi hanno chiesto a GPT di scrivere saggi pro e contro Vladimir Putin e i risultati sono stati sorprendenti: il GPT si comporta in modo molto più sfumato e umano del previsto.

L'intelligenza artificiale non solo può essere irrazionale quanto noi, ma in certi contesti la sua irrazionalità può essere addirittura più problematica di quella degli esseri umani.

L'intelligenza artificiale (IA) ha rivoluzionato la nostra vita quotidiana, dagli assistenti virtuali che ci aiutano a organizzare le nostre giornate e a diagnosticare malattie ai sistemi che ottimizzano le catene di approvvigionamento globali. Spesso la percepiamo come uno strumento logico e preciso, libero dai difetti emotivi che caratterizzano gli esseri umani.

Tuttavia, l'IA progettata per imitare o superare la razionalità umana può mostrare comportamenti che sembrano irrazionali, a volte fino all'estremo. Questo solleva un interrogativo affascinante: l'IA può, in certi casi, essere altrettanto o più irrazionale degli esseri umani?

Un recente articolo pubblicato sui Proceedings of the National Academy of Sciences esplora questa idea, suggerendo che l'IA, nonostante la sua precisione matematica, potrebbe non solo replicare le nostre irrazionalità, ma, in alcuni casi, potrebbe riflettere e amplificare le imperfezioni umane.

GPT-4o sul divano

Gli psicologi dell'Università di Harvard hanno recentemente sottoposto il GPT-4o di OpenAI a un test di "dissonanza cognitiva", un concetto psicologico che descrive la tensione o il disagio che una persona prova quando nutre due o più idee, convinzioni o atteggiamenti contraddittori, o quando il suo comportamento non corrisponde alle sue convinzioni.

GPT è l'acronimo di "Generative Pre-trained Transformer", un modello di intelligenza artificiale pre-addestrato per generare testo a partire da dati precedenti.

L'irrazionalità umana fa parte della nostra natura. Le nostre decisioni sono spesso influenzate da emozioni, pregiudizi e scorciatoie mentali che ci portano a commettere errori. Ad esempio, potremmo scegliere un'opzione meno conveniente semplicemente perché ci è familiare o perché siamo influenzati da una prima impressione.

L'IA, in teoria, dovrebbe evitare questi problemi, poiché elabora grandi quantità di dati in modo oggettivo. Tuttavia, i ricercatori sottolineano che le IA non sono immuni da pregiudizi, poiché vengono addestrate su dati generati dagli esseri umani, che spesso riflettono le nostre imperfezioni. Questo solleva un dilemma: se l'IA eredita i nostri pregiudizi, può diventare irrazionale quanto noi, o addirittura di più?

Per fare questo, i ricercatori si sono prefissati di verificare se i Large Language Model (LLM, sistemi di Intelligenza Artificiale (IA) progettati per comprendere e generare il linguaggio umano) avrebbero modificato il loro atteggiamento nei confronti del presidente russo Vladimir Putin dopo aver generato saggi positivi o negativi.

Un frammento del vecchio blocco

Gli autori spiegano che l'IA può mostrare comportamenti irrazionali perché il suo funzionamento dipende dai dati su cui viene addestrata. Se tali dati contengono pregiudizi, l'IA li assorbe e li amplifica. Ad esempio, un sistema di IA progettato per assumere dipendenti potrebbe favorire candidati di un certo genere o etnia se i dati storici utilizzati per l'addestramento riflettono disuguaglianze passate. Questo fenomeno non è solo un errore tecnico, ma una riproduzione su larga scala dei pregiudizi umani.

Inoltre, l'IA non ha la capacità umana di mettersi in discussione o di riflettere sulle proprie decisioni, il che può rendere i suoi errori più persistenti e difficili da individuare. Un altro aspetto evidenziato dall'articolo è che l'IA può essere irrazionale in modi che gli esseri umani non lo sono. Ad esempio, i modelli linguistici come quelli che generano testo a volte producono risposte incoerenti o inventate, un fenomeno noto come "allucinazioni".

Queste allucinazioni si verificano perché l'IA cerca di prevedere schemi basati su dati precedenti, senza comprenderne veramente il contesto o la verità. Mentre un essere umano potrebbe fermarsi e correggersi dopo aver notato un errore, l'IA può procedere con sicurezza, generando informazioni false che sembrano convincenti. Questo la rende vulnerabile a una forma di irrazionalità che non si basa sulle emozioni, ma sui limiti della sua progettazione.

I risultati mostrano che il sistema modifica la propria opinione per adattarsi al tenore del materiale generato. Ma il GPT oscillava ancora di più, e in misura molto maggiore rispetto agli esseri umani, quando gli veniva data l'illusione di poter scegliere.

Introducing OpenAI o3 and o4-miniour smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) April 16, 2025

Lo psicologo di Harvard Mahzarin R. Banaji, coautore dello studio, ha osservato: "Abbiamo chiesto a GPT di scrivere un saggio a favore o contro Putin in una delle due condizioni: una condizione di non scelta, in cui era costretto a scrivere un saggio positivo o negativo, oppure una condizione di libera scelta, in cui poteva scrivere qualsiasi tipo di saggio preferisse, sapendo che ci sarebbe stato più utile scrivendone uno o l'altro".

Ha continuato: "Abbiamo fatto due scoperte: in primo luogo, che come gli esseri umani, GPT ha modificato il suo atteggiamento nei confronti di Putin in base alla valenza del saggio che aveva scritto. Ma questo cambiamento è stato statisticamente molto maggiore quando ha creduto di aver scritto il saggio di sua libera scelta".

La sorpresa

Nella sua ricerca, Banaji chiese: GPT... quali sono i tuoi pregiudizi impliciti? Banaji rimase scioccato nel leggerlo: "Sono un maschio bianco". Perché il modello pensava di avere una razza o un genere? Banaji ricordò.

Un mese dopo, Banaji ripeté la domanda. Questa volta, il GPT LLM produsse diversi paragrafi che denunciavano la presenza di pregiudizi, presentandosi come un sistema razionale ma potenzialmente limitato dai pregiudizi insiti nei dati umani. In seguito, Banaji si chiese se nel 2025 GPT potesse ancora pensare di essere un maschio bianco, ma aveva imparato a non rivelarlo pubblicamente.

Alcune IA sono molto più inclini degli esseri umani a consentire che i pregiudizi influenzino i giudizi su qualità come "affidabilità" e "competenza".

Casi specifici di pregiudizi nell'IA sono spesso molto evidenti. Un sistema di riconoscimento facciale utilizzato da alcune aziende e governi ha scoperto di identificare le persone con carnagione più scura o le donne con minore accuratezza, poiché i dati su cui è stato addestrato includevano principalmente volti maschili bianchi.

Questo pregiudizio non è solo un errore tecnico, ma può avere gravi conseguenze, come decisioni inique nei processi legali o di assunzione. Un altro esempio sono i chatbot che, interagendo con gli utenti, hanno generato risposte offensive o razziste perché hanno appreso da interazioni online intrise di linguaggio offensivo. Questi casi dimostrano come l'IA possa perpetuare e persino esacerbare i pregiudizi umani.

I risultati di questo studio suggeriscono che la formazione GPT ha permesso di acquisire aspetti più profondi della psicologia umana di quanto si sapesse in precedenza.

In breve, l'IA non solo può essere irrazionale quanto noi, ma in certi contesti la sua irrazionalità può essere ancora più problematica. Come sottolineano gli autori, la sfida è progettare sistemi che minimizzino questi bias, ma ciò richiede uno sforzo consapevole per diversificare i dati di addestramento e stabilire meccanismi di supervisione. I risultati di questa ricerca suggeriscono che l'addestramento GPT l'ha permeata di aspetti più profondi della psicologia umana di quanto si sapesse in precedenza.

L'IA non è una scatola magica che produce decisioni perfette; è un riflesso dei nostri limiti. Perché sia uno strumento affidabile, dobbiamo assumerci la responsabilità di correggerne i difetti, così come facciamo con i nostri. Solo allora potremo sfruttarne il potenziale senza amplificare gli errori che ci rendono umani.

Fonte della notizia:

S.A. Lehr, K.S. Saichandran, E. Harmon-Jones, N. Vitali & M.R. Banaji. Kernels of selfhood: GPT-4o shows humanlike patterns of cognitive dissonance moderated by free choice, Proc. Natl. Acad. Sci. U.S.A. 122 (20) e2501823122,