L'Intelligenza Artificiale ragiona davvero o è solo un "pappagallo statistico" incredibilmente evoluto? E qual è la differenza fondamentale tra un motore di ricerca come Google e un Large Language Model come ChatGPT?
In questa nuova puntata del podcast di Cantiere AI, facciamo un passo indietro per capire le basi dell'Intelligenza Artificiale con una delle massime esperte italiane: la Professoressa Gabriella Pasi, Pro-Rettrice all'Internazionalizzazione e docente ordinaria presso il Dipartimento di Informatica dell'Università di Milano-Bicocca.
Un'intervista fondamentale per chiunque voglia usare l'IA in modo consapevole, superando la superficie e comprendendone i meccanismi, i rischi e le enormi potenzialità.
Link utili
Trascrizione
Davide: Ciao, siamo in una nuova puntata del Cantiere AI Podcast. Siamo qui con la professoressa Pasi. Grazie mille della disponibilità!
Gabriella Pasi: Grazie a voi.
Davide: La professoressa è anche direttrice, se non sbaglio...
Gabriella Pasi: No, sono stata direttrice di questo dipartimento, ci troviamo ora al dipartimento di informatica. Il mio mandato è finito da 5 mesi.
Davide: Professoressa ordinaria del dipartimento di informatica dell'Università Bicocca di Milano. Ed è appena tornata dall'ennesimo viaggio, quindi la ringraziamo ulteriormente per essere riuscita a trovare il tempo per noi.
Gabriella Pasi: Grazie mille, buon pomeriggio a tutte e a tutti, e grazie dell'invito a fare questa chiacchierata su tematiche così importanti.
Davide: Lei è un'esperta di intelligenza artificiale. Com'è arrivata a questa materia nel suo percorso e come ha visto cambiare questo mondo? Perché adesso noi parliamo di intelligenza artificiale, ma sappiamo che i Large Language Model (LLM) sono solo un piccolo sottoinsieme di un mondo vastissimo.
Gabriella Pasi: Esatto. Il mio percorso ha incrociato l'intelligenza artificiale fin dall'inizio, dalla laurea. Ho fatto una tesi, parecchi anni fa, che verteva proprio sullo sviluppo di un sistema esperto: un sistema per il supporto alle decisioni in ambito medico. Doveva analizzare dati relativi a un paziente e fare una previsione delle prescrizioni farmacologiche da effettuare. Non veniva visto assolutamente come un sostituto del medico, ma come un supporto alla formazione degli specializzandi. Ho iniziato a studiare l'intelligenza artificiale quando era costituita da due aspetti, che esistono tuttora: il ragionamento automatico (quindi la rappresentazione della conoscenza) e l'apprendimento automatico. Oggi il grande pubblico conosce soprattutto l'apprendimento automatico.
Davide: Ecco, se ci vuole spiegare un po' le differenze per far capire meglio.
Gabriella Pasi: L'apprendimento automatico comprende algoritmi di vario tipo che hanno come obiettivo quello di apprendere un modello di comportamento (associare un output a un input) analizzando moltissimi esempi. Le reti neurali e le reti neurali profonde, che sono alla base di tante tecnologie usate oggi, sono un esempio di algoritmi di apprendimento. Pensate che la concettualizzazione delle reti neurali nasce tantissimi decenni fa, tra la fine degli anni '70 e gli anni '80. L'altro aspetto importante, che esiste ancora oggi, è la rappresentazione formale della conoscenza (ad esempio per mezzo di grafi) sulla cui base poter operare un ragionamento automatico. Oggi parliamo molto di più dell'apprendimento automatico, ma è importante ricordare anche l'altra faccia della medaglia.
Fabio: Vorrei cercare di semplificare con un esempio molto pratico, per far capire che l'intelligenza artificiale non è solo ChatGPT. Qual è la differenza fondamentale tra Google e ChatGPT? Entrambi usano intelligenza artificiale, no?
Gabriella Pasi: Sì, anche il motore di ricerca di Google si basa su algoritmi che includono l'intelligenza artificiale. Qui siamo nel reame del trattamento automatico del linguaggio. ChatGPT è una tecnologia basata sull'apprendimento automatico, in particolare su reti neurali profonde, che oggi sono possibili grazie all'enorme evoluzione dell'hardware degli ultimi vent'anni. Questo modello di linguaggio ha una base statistica: per essere addestrato, "macina" in input milioni di testi. Analizzandoli, impara come gli esseri umani mettono in sequenza le parole. Se vi dico "oggi è una bella...", secondo voi la parola successiva sarà "giornata". Il meccanismo alla base di questi Large Language Model è proprio la capacità di sequenziare parole sulla base dell'uso comune del linguaggio.
Fabio: E i risultati sono strepitosi, visto come usiamo ChatGPT oggi.
Gabriella Pasi: Però l'approccio rimane probabilistico: il testo generato non viene realmente "compreso" dall'algoritmo. Viene creato da zero sulla base dei testi analizzati in precedenza. Nel caso del motore di ricerca, invece, l'utente inserisce delle parole chiave e l'algoritmo va a pescare, tra milioni di documenti scritti da esseri umani (che hanno un autore genuino), quelli più vicini alla richiesta. ChatGPT, al contrario, genera il testo, ed è per questo che accanto a risposte di altissima qualità possono nascere frasi convincenti a livello sintattico ma totalmente prive di senso. Sono le famose "allucinazioni". Oggi comunque le due tecnologie si stanno combinando: se cercate su Google, in alto vi risponde un chatbot, ma sotto trovate i link alle fonti.
Davide: Partendo da questo presupposto, è fondamentale porre la domanda (il prompt) in inglese, oppure va bene l'italiano o la lingua che parliamo di solito?
Gabriella Pasi: Questi sistemi sono disegnati per accedere a testi in tante lingue. I motori di ricerca memorizzano archivi di pagine web scritte in tutto il mondo. Per i chatbot, dipende tutto da come sono stati allenati. Se durante l'addestramento hanno elaborato solo testi in italiano, genereranno in italiano. Ci sono però lingue cosiddette "con risorse limitate". Se ci sono meno esempi a disposizione, la qualità della generazione o della traduzione automatica sarà inferiore. Le traduzioni dall'inglese all'italiano sono eccellenti, ma se proviamo a tradurre dall'italiano al lituano la qualità cala, proprio perché l'algoritmo ha "visto" molti meno esempi.
Davide: Una riflessione legata al mondo dell'etica: visto che i chatbot, in maniera brutale, di fatto non sanno quello che dicono, ci si è mai domandati se non sia il caso di limitarne l'utilizzo solo a persone "formate"?
Gabriella Pasi: Questo è un tema importantissimo. L'utilizzo responsabile presuppone che l'utente abbia una conoscenza, almeno di base, del funzionamento dell'algoritmo. Capire che il sistema può generare testi non veritieri spinge le persone a controllare l'output. C'è poi il tema fondamentale della privacy: quando diamo un input a questi strumenti delle Big Tech, il nostro testo può essere trattenuto e analizzato. Se un'azienda inserisce documenti sensibili, li sta di fatto condividendo. Per questo converrebbe usare versioni proprietarie per i dati aziendali. Rendere l'algoritmo disponibile su larga scala è stato un grande mezzo di diffusione, ma bisognerebbe fare molta più formazione (come queste vostre iniziative!) per far capire alle persone che è uno strumento utilissimo per generare testi, ma non è in grado di "pensare" a quello che scrive.
Fabio: Le chiedo una specifica: il fatto che assorbano l'input, non genera anche un rischio legato al diritto d'autore?
Gabriella Pasi: Assolutamente. Poiché per generare il testo vengono usate sequenze su base probabilistica, può accadere che contenuti originali vengano replicati o parzialmente replicati, portando a questioni serie di copyright. L'abbiamo visto di recente con il caso del New York Times.
Davide: Lei ha contribuito a fondare un corso di laurea in intelligenza artificiale in Bicocca, giusto?
Gabriella Pasi: Sì, grazie a un gruppo di lavoro tra tre università: Milano Bicocca, Statale di Milano e Università di Pavia. Abbiamo creato una laurea triennale in inglese e due magistrali sull'intelligenza artificiale. È un corso molto internazionale e la cosa fantastica è che, a differenza dell'informatica tradizionale dove ci sono storicamente poche ragazze, qui abbiamo una perfetta parità: 50% studentesse e 50% studenti. Forse il modo in cui viene presentata l'intelligenza artificiale attira per l'aspetto più creativo e interdisciplinare.
Fabio: I primi laureati sono già entrati nel mondo del lavoro? Che ruoli ricoprono?
Gabriella Pasi: Trovano lavoro molto facilmente. Vengono reclutati per scopi diversissimi. Molti si occupano di Retrieval-Augmented Generation (RAG), che è l'integrazione di motori di ricerca all'interno dei chatbot per limitare le allucinazioni e migliorare i risultati. Altri lavorano sulla definizione di grafi per la rappresentazione della conoscenza. Le competenze richieste dal mercato sono davvero tantissime e trovano un riscontro eccellente.
Davide: Come ha visto cambiare il suo ruolo di professoressa e ricercatrice con questa esplosione dell'AI?
Gabriella Pasi: Occupandomi di ricerca e di trattamento automatico del linguaggio, l'impatto dei Large Language Model è stato rivoluzionario e ci siamo adeguati rapidamente. Però guardando al futuro, secondo me non ci si fermerà qui. Spero si torni a una dimensione più individuale e attenta alla privacy, lavorando su modelli più piccoli (Small LLM) adattabili al singolo utente e molto più consapevoli del contesto. Il vero salto sarà la combinazione tra le capacità di apprendimento e quelle reali di ragionamento.
Fabio: Ma l'AI non "ragiona" già? Spesso le Big Tech dicono che la macchina abbia capacità di ragionamento.
Gabriella Pasi: È un aspetto molto dibattuto. ChatGPT nasce come algoritmo generativo. Le vere capacità logiche inizialmente mancavano quasi del tutto: provate a fargli fare compiti di ragionamento puro e spesso fallisce. Probabilmente, quella che oggi chiamano "capacità di ragionamento" deriva dall'innesto parallelo di altri algoritmi specializzati che vanno a completare le lacune del modello linguistico. Devo ammettere però che negli ultimi mesi i miglioramenti negli output sono stati straordinari, con una velocità di evoluzione impressionante.
Fabio: Sentivo un direttore creativo dell'agenzia Armando Testa raccontare che, ogni volta che esce un aggiornamento di Midjourney, loro inseriscono lo stesso identico prompt e si salvano il risultato. È pazzesco vedere l'evoluzione della qualità dell'immagine generata nel tempo.
Gabriella Pasi: Esatto. Considerate che l'addestramento del modello è una fase computazionalmente costosissima. Una volta addestrato, in teoria il modello è "cristallizzato". Nelle prime versioni, se gli chiedevi notizie recenti ti rispondeva "Sono aggiornato solo fino al 2022". Adesso hanno ovviato al problema interfacciando il chatbot con i motori di ricerca in tempo reale. Per aggiornare davvero il modello senza costringerlo a navigare sul web, è necessario fare dei cicli di addestramento e perfezionamento continui.
Davide: La qualità del materiale usato per l'addestramento è uno dei punti più critici per chi sviluppa. È davvero così difficile isolare solo i dati buoni?
Gabriella Pasi: La qualità è fondamentale. Se addestrassimo un modello solo su materiale di altissima qualità non elimineremmo le allucinazioni (per via della natura statistica dell'algoritmo), ma miglioreremmo drasticamente la base di partenza. Il problema è che ChatGPT ha ingerito milioni di testi presi da Wikipedia, ma anche da Reddit o dai social media, dove il concetto di "qualità" è molto blando. Quantità non significa qualità.
Fabio: Ed è da qui che nascono i famosi "bias", i pregiudizi dell'AI?
Gabriella Pasi: Esatto. L'algoritmo imita il modo in cui noi scriviamo. Se nei testi usati per addestrarlo c'è un pregiudizio di genere, lui lo replicherà ciecamente. Per fare un esempio, dall'inglese all'italiano, se scrivo "the doctor" (che in inglese non ha genere), l'AI lo tradurrà quasi sempre al maschile. Non è l'algoritmo a essere maschilista di sua natura, ma riflette l'immagine della società che traspare dai testi umani. Le aziende stanno correndo ai ripari iniettando filtri etici e controlli sull'output per evitare derive tossiche.
Davide: Una curiosità più "aneddotica": ha senso, quando scriviamo un prompt, essere educati e scrivere "per favore" e "grazie"? Cambia il risultato?
Gabriella Pasi: Tecnicamente, se dai un'indicazione in modo secco e diretto l'output generato dovrebbe essere lo stesso. Però i chatbot sono istruiti a mantenere un tono molto formale ed educato. Quindi, se tu usi formule di cortesia, l'algoritmo tende a rispecchiare quel registro linguistico, e alla fine rende l'interazione più naturale e piacevole.
Davide: Dal punto di vista aziendale italiano, che consigli darebbe per implementare queste soluzioni?
Gabriella Pasi: Parlo da ricercatrice, per me l'impatto sulla società deve essere benefico per gli individui. Purtroppo non è sempre così. Si parla di democratizzazione dell'AI, ma i dati e la vera potenza computazionale sono in mano a pochissime multinazionali. Le università e i centri di ricerca devono fare i salti mortali per comprarsi i server adatti. La vera democrazia per il futuro aziendale e istituzionale, secondo me, sta nello sviluppare soluzioni più ridotte, focalizzate (Small LLM), proprietarie, che siano efficaci per il loro specifico settore medico o aziendale, garantendo un ferreo rispetto della privacy.
Fabio: Chiarissima. Di solito concludiamo queste interviste con tre brevi domande finali. La prima: un libro che consiglierebbe legato a queste tematiche?
Gabriella Pasi: Questa è una domanda da un milione di dollari! Mi viene da pensare al classico 1984 di George Orwell.
Davide: Un film o una serie TV per approfondire questi concetti?
Gabriella Pasi: Mi è piaciuto moltissimo il film su Alan Turing, The Imitation Game. È molto istruttivo.
Fabio: Ultima domanda: un tool di intelligenza artificiale che usa spesso in questo periodo?
Gabriella Pasi: Per deformazione professionale, uso costantemente i motori di ricerca, che ormai integrano tantissimi algoritmi di intelligenza artificiale. I chatbot li uso, ma senza abusarne: magari per fare delle parafrasi o incrociare dei controlli sulle traduzioni. Certo non li uso per farmi scrivere gli articoli scientifici, altrimenti si inventerebbero cose improbabili!
Davide: Fantastico. Grazie mille del suo tempo e di questa chiacchierata!
Gabriella Pasi: Grazie a voi.