L’Opinione

Ma la creatività
non appartiene
ai modelli di ChatGPT


Lonneke van der Plas
Sabato 26 luglio 2025 ca. 6 min. di lettura
 

di Lonneke van der Plas
Docente all'Istituto di argomentazione, linguistica e semiotica dell’USI

Non lasciarti ingannare. Gli strumenti basati sui modelli di linguaggio di grandi dimensioni (detti LLM, dall’inglese Large Language Model, come ChatGPT, Gemini e Mistral) non sono così creativi come molti pensano. Ed è importante rendersi conto dei loro limiti.

Nel nostro gruppo di ricerca abbiamo messo alla prova la creatività degli LLM con due tipi di compiti: la scrittura creativa di racconti e il ragionamento analogico. In entrambi i casi si è ripetuto lo stesso schema: a prima vista sembra che gli LLM siano creativi, ma a un’analisi più attenta il quadro cambia, mostrando un netto svantaggio rispetto agli esseri umani.

Per verificare se gli LLM siano in grado di generare racconti creativi, abbiamo confrontato 60 racconti scritti da LLM e 60 scritti da autori umani di livello medio. Ogni partecipante (modello o umano) doveva scrivere un breve racconto di cinque frasi, partendo da alcune parole assegnate.

Abbiamo valutato la creatività usando misure automatiche su quattro dimensioni:

  • Novità: quanto sono uniche le idee dietro il racconto?
  • Sorpresa: ci sono colpi di scena inaspettati?
  • Diversità: il racconto usa un linguaggio vario e si distingue dagli altri?
  • Complessità linguistica: quanto è ricco il vocabolario e complessa la struttura delle frasi?

I racconti generati dagli LLM hanno ottenuto punteggi più alti su aspetti come la ricchezza lessicale e la varietà sintattica. In altre parole, i modelli hanno mostrato un linguaggio fluente, con vocaboli ampi e strutture articolate. Tuttavia, sugli altri parametri quali novità, sorpresa e diversità, gli esseri umani si sono rivelati sistematicamente superiori. I racconti dell’IA tendono infatti a essere più standardizzati, meno sorprendenti e privi di varietà negli elementi narrativi.

Abbiamo anche raccolto una serie di giudizi da parte di persone (esperti e non esperti), e chiesto agli stessi LLM di valutare la creatività degli output e distinguere tra racconti umani e racconti generati da modelli. Ebbene, i giudici non esperti e gli LLM hanno valutato spesso i racconti generati dai modelli come più creativi rispetto a quelli umani. Ma gli esperti hanno invece confermato quanto indicavano le metriche automatiche: gli esseri umani mantengono un vantaggio quando si parla di vera creatività.

Gli LLM, come dicevamo, eccellono nel produrre linguaggio fluente, ma spesso mancano di una reale originalità. I loro racconti appaiono sofisticati, ma in realtà riciclano schemi appresi durante l’addestramento. I giudici non esperti e i modelli stessi possono confondere la ricchezza lessicale con la creatività vera e propria. I professionisti, invece, sanno riconoscere meglio elementi come colpi di scena, freschezza semantica e sfumature emotive.

Preoccupa, però, il fatto che i racconti degli LLM siano comunque in grado di impressionare l’utente medio per la loro apparente creatività, quando in realtà non la possiedono davvero, e questo può portarci a sovrastimare le capacità creative dell’intelligenza artificiale. La vera magia della creatività - combinare idee in modi che sorprendono e mettono in discussione ciò che ci aspettiamo - resta ancora fuori dalla portata di questi strumenti.

Oltre alla scrittura creativa, nei nostri studi abbiamo messo alla prova i modelli anche per quanto riguarda il ragionamento analogico. Il ragionamento analogico è un processo cognitivo chiave per la scoperta scientifica e la risoluzione creativa di problemi. Consiste nel capire le relazioni tra coppie di concetti (ad esempio: “l’occhio serve a vedere” come “l’orecchio serve a sentire”). In passato, molte ricerche hanno valutato le analogie con compiti linguistici semplici: “amare” sta a “ama” come “camminare” sta a...? (risposta: “cammina”). Ma questo non riflette le analogie complesse e astratte che si trovano nei test psicometrici umani. Noi abbiamo incluso anche questi compiti più difficili, confrontando le prestazioni dei modelli con quelle umane.

I modelli di linguaggio funzionano bene con le analogie semplici, dando l’impressione di essere molto bravi con il ragionamento analogico, ma nei compiti complessi le loro prestazioni calano sensibilmente. Abbiamo dimostrato che, con un tipo di addestramento specifico, i modelli possono migliorare anche nel ragionamento analogico complesso, concentrandosi sulle relazioni tra le cose piuttosto che sui singoli elementi. Tuttavia, rimangono ancora distanti dai livelli umani.

Per questo è fondamentale valutare con attenzione i LLM, evitando di attribuire loro capacità che in realtà non hanno. E nel caso della creatività, la valutazione è più difficile di quanto si pensi. Bisogna anche tenere presente che un modello potrebbe andare molto bene in un test psicometrico solo perché ha già visto lo stesso test nei dati di addestramento.

Oltre a verificare la creatività dei modelli linguistici, abbiamo anche esplorato tecniche per migliorarla (https://arxiv.org/abs/2505.14442). In particolare, abbiamo mostrato che i parametri della creatività (ad esempio novità, sorpresa, diversità) possono essere integrati direttamente nel processo di apprendimento del modello. Questo approccio, unito a un allineamento con le preferenze creative umane, porta a risultati più creativi, mantenendo alta la qualità su diversi tipi di compiti.

In due articoli accademici precedenti a quello di cui stiamo parlando, pubblicati prima del lancio di ChatGPT (https://arxiv.org/abs/2006.11814 e https://arxiv.org/abs/2007.11973), avevamo affrontato i rischi di una società che si affida sempre più a sistemi di intelligenza artificiale addestrati con obiettivi troppo ristretti. Si perde diversità, si esplora uno spazio più limitato e si innova di meno. Dove una volta erano gli esseri umani a decidere di fare scelte audaci, magari folli all’apparenza ma capaci di portare a un grande successo (o a un fallimento da cui imparare), oggi ci troviamo con sistemi di intelligenza artificiale che ci guidano verso scelte più sicure, ripetendo schemi noti. Vale anche per la generazione di testi: siamo spesso soddisfatti quando ChatGPT ci riscrive un testo rendendolo più “professionale”, ma potremmo stare sacrificando il nostro stile personale. E con l’uso massiccio di strumenti come ChatGPT, questo problema diventa ancora più urgente.

Se non riconosciamo i limiti di questi strumenti in rapporto a capacità umane come il pensiero creativo, rischiamo di perdere la varietà e la creatività che abbiamo sempre avuto. Per questo continueremo a lavorare per valutare in modo accurato questi strumenti, sensibilizzare sulle loro carenze in ambito creativo e, allo stesso tempo, migliorare le loro capacità creative.

--

Questo articolo è stato scritto in collaborazione con Mete Ismayilzada