Come l’intelligenza artificiale può accelerare la scoperta di nuovi farmaci?
In questo episodio il Prof. Cristian Taccioli e il Dott. Fabio Bove raccontano il progetto del gruppo TaacLab premiato da Meta come unico gruppo europeo: un sistema di Large Language Model capace di generare molecole potenzialmente efficaci contro tumori e antibiotico-resistenza.
Dalla ricerca universitaria all’impatto clinico, un dialogo che mostra come l’AI stia riscrivendo i tempi della scienza.
Link utili
Trascrizione
Davide: Ciao, benvenuti a una nuova puntata de Il Cantiere AI Podcast. Siamo qui all'Università di Padova con il professor Cristian Taccioli, Fabio Bove e Chitra Yadav. Siete qui perché vi abbiamo scoperto per il vostro gruppo di ricerca e soprattutto per il grant che avete vinto direttamente da Meta. Partiamo da questo: cos'è il vostro gruppo di ricerca e cos'è questo premio?
Cristian Taccioli: È un gruppo di ricerca da me fondato una decina di anni fa. Io sono un biologo molecolare e bioinformatico e ho iniziato occupandomi della genomica del cancro. Da qualche anno utilizziamo l'intelligenza artificiale per le nostre ricerche. Il tutto ha preso una forte accelerata quando è arrivato Fabio per la sua tesi magistrale. Lui è un software engineer e ha sviluppato tutta la parte di machine learning e deep learning. Insieme a un fantastico entourage di collaboratori, abbiamo scritto un progetto per ottenere fondi da Meta e abbiamo vinto: siamo stati l'unico gruppo nell'Unione Europea!
Fabio Bove: Si può riassumere dicendo che è nato tutto un po' per gioco da una tesi magistrale, e siamo finiti nell'headquarter di Meta a San Francisco! È stata una spinta in più a credere in questo progetto e a vedere che aveva un fondamento a livello globale. Abbiamo vinto perché abbiamo scelto di focalizzarci su una tecnologia molto "hot" in questo momento, i Large Language Models (LLM), e tramite il fine-tuning e l'open source abbiamo creato un nuovo approccio per analizzare le sequenze in ambito biologico, in particolare contro l'antibiotico-resistenza.
D: Perché avete scelto proprio gli LLM?
CT: In realtà, all'inizio, per lo sviluppo di nuovi farmaci antitumorali non usavamo gli LLM. Abbiamo iniziato con le reti GAN (Generative Adversarial Networks) e poi i Normalizing Flows. Gli LLM – per intenderci, la tecnologia alla base di ChatGPT o Gemini – sono la cosa più semplice da spiegare perché nascono per lavorare con i testi. I modelli matematici dietro le GAN sono molto più complessi, difficili da comprendere e, soprattutto, molto più dispendiosi in termini di energia elettrica e di tempi di calcolo.
FB: Esatto, le GAN si basano su un processo di conflitto tra un generatore e un discriminatore, che presuppone equilibri difficilissimi da trovare. Usavamo le reti neurali convoluzionali (CNN) e si portavano dietro una grandissima lentezza nel training. Passare agli LLM per me è stata la svolta! Grazie alla loro fase di pre-addestramento (pre-training) funzionano benissimo anche quando si hanno pochi dati a disposizione. Ci permettono di testare un nuovo dataset nel giro di una settimana cambiando solo il tokenizer e due o tre parametri: ci rende estremamente flessibili.
F: Cosa avete dovuto presentare a Meta per passare la selezione?
CT: Abbiamo presentato il nostro background sulle molecole antitumorali, ma per il premio abbiamo proposto la generazione di nuovi farmaci antibiotici. È un problema clinico enorme: aumentano costantemente i decessi negli ospedali causati dall'antibiotico-resistenza, ad esempio in pazienti anziani o immunodepressi che contraggono infezioni da cui non riescono a uscire. Sul cancro si investono già tantissimi soldi, mentre l'antibiotico-resistenza necessita di soluzioni nuove.
FB: Avevamo già sintetizzato tre nuove molecole da validare, presentando dei valori di predizione molto buoni. Questo ha dimostrato a Meta che il nostro progetto era concreto e che ci avevamo già speso tempo ed energie.
D: Una curiosità: senza l'intelligenza artificiale, quanto tempo ci vorrebbe per arrivare a sintetizzare tre molecole di questo tipo?
FB: È proprio un altro mondo: prima, letteralmente, non era possibile! Risparmiamo anni di studi e il lavoro manuale di decine di persone. Oggi noi potremmo sfornare molecole nuove quotidianamente.
F: Possiamo andare un po' più nei dettagli? Come fate a generare farmaci usando un LLM che di base genera testo?
FB: Stiamo provando vari approcci, ma quello classico è l'instruction tuning. Gli LLM sono bravissimi a generare testo, quindi noi gli diamo in pasto la formula chimica della molecola sotto forma di caratteri, in un formato specifico che si chiama SMILES. Evitiamo di dover gestire le complesse strutture bidimensionali o tridimensionali della molecola. Abbiamo creato un "tokenizer" speciale in grado di gestire l'alfabeto della molecola e parametri aggiuntivi, come la solubilità o il peso molecolare, per insegnare alla rete le metriche specifiche del farmaco.
D: E a livello hardware è dispendioso?
FB: All'inizio abbiamo usato tecniche come la LoRA (Low-Rank Adaptation) per allenare solo una parte dei parametri del modello gigante, e la quantizzazione per ridurre la precisione dei pesi ed eseguire test veloci su hardware limitato. Ora fortunatamente siamo riusciti a rimuovere la quantizzazione e usiamo una precisione FP16 (a 16 bit), che ci rende molto più veloci.
F: Il passaggio dal computer al laboratorio come avviene?
CT: Una volta che il software ci restituisce la formula della molecola migliore, la passiamo a un nostro collaboratore chimico qui a Padova che la sintetizza fisicamente. Successivamente, si passa alla validazione sulle linee cellulari (tumorali o batteriche). Lo step finale, che faremo tra qualche mese, è testarla sul modello murino, cioè sui topi.
FB: Il problema attuale è che generiamo talmente tante sequenze chimiche che il collo di bottiglia è diventato il laboratorio! Il valore aggiunto che portiamo è creare una pipeline completa: generiamo la molecola, la validiamo virtualmente tramite AI e passiamo al chimico solo il candidato "perfetto" da sintetizzare. Per questo abbiamo anche rilasciato alcune nostre librerie open source su Python, usando strumenti come RDKit, per aiutare la comunità scientifica proprio nella validazione.
D: Avete già visto dei risultati positivi in laboratorio?
CT: Sull'antibiotico-resistenza le validazioni le stiamo facendo proprio in questi giorni. Ma sul cancro siamo già molto avanti e le validazioni in vitro stanno andando benissimo! Le nostre molecole si sono rivelate efficaci sul melanoma e sul tumore del colon: la cosa fantastica è che uccidono le cellule tumorali, ma lasciano in pace le cellule normali! Di solito, un farmaco antitumorale ammazza tutto, è quasi un veleno. Le nostre molecole invece sono molto mirate.
F: Ci sono stati avvicinamenti da parte dell'industria dopo il premio?
CT: Sì, nei congressi in cui abbiamo presentato il lavoro si sono avvicinate diverse aziende private. I privati si muovono molto più velocemente delle università perché intravedono il vantaggio economico di arrivare sul mercato prima della concorrenza. C'è chi dice che l'AI sia una bolla, ma non è così. È come la scoperta dell'elettricità: ci sarà un assestamento, ma di certo non torneremo indietro alle lampade a olio. Non a caso, di tutti i premiati nel mondo da Meta, l'80% erano aziende private.
D: Pensi che l'AI sconfiggerà il cancro?
CT: Io non direi mai "sconfiggeremo il cancro", perché il cancro è una malattia complicatissima, è "vita che non vuole morire". L'AI però ci dà un'opportunità enorme per rendere il nostro cervello più veloce. L'algoritmo non è creativo, non "capisce" davvero il problema, ma genera soluzioni che espandono enormemente le nostre possibilità.
F: E come professore, non temi che questo disimpari o impigrisca gli studenti?
CT: È la stessa critica che faceva Socrate all'invenzione della scrittura: diceva che avrebbe impigrito la mente. Ma senza scrittura non c'è progresso! È vero che perdiamo un po' di "manualità", ma guadagniamo opportunità incredibili. L'importante è saperla usare: ai miei studenti di bioinformatica insegno prima a programmare in Python senza ChatGPT. Se non sanno il codice di base, quando daranno in pasto all'AI un progetto intero, l'algoritmo farà un errore logico e loro non sapranno come correggerlo.
D: Chitra, tu come sei entrata nel team e cosa ne pensi dell'uso dell'AI per scrivere codice?
Chitra: Ero una studentessa del professore qui a Padova e gli ho chiesto io di poter lavorare nel campo! Per quanto riguarda il codice, concordo: se non sai programmare, l'AI ti darà soluzioni sbagliate o che non c'entrano nulla. Ma se conosci la materia, ti fa risparmiare un mare di tempo. Prima del boom dell'AI la competenza principale di un programmatore era saper cercare i bug su Google o StackOverflow; oggi è saper interrogare l'intelligenza artificiale per avere la soluzione.
F: Siamo in chiusura! Consigliateci un libro.
CT: Vi consiglio un libro tecnico sul Deep Learning che adoro, perché contiene sia i modelli matematici che il codice (di Ian Goodfellow). E naturalmente vi consiglio di leggere il nostro ultimo paper scientifico sul database genomico "GBRAP".
FB: Io esco dalla tecnica e vado sulla narrativa: I miei giorni alla libreria Morisaki e Se i gatti scomparissero dal mondo. Ti ricordano di prenderti i tuoi tempi, restare calmo e goderti la vita senza farti travolgere dalla fretta.
D: Un tool basato su AI che usate di più?
FB: Uso tantissimo GitHub Copilot. In futuro diventeremo tutti dei manager che gestiscono un team di agenti AI. Per il ragionamento logico mi trovo molto bene anche con LLaMA e DeepSeek.
CT: Io adoro Claude per gestire le mie email in inglese. È bravissimo se gli chiedi di sistemare un testo mantenendo il tuo stile originale. ChatGPT tende a stravolgere completamente le frasi, e chi le legge si accorge subito che sono scritte da un'intelligenza artificiale e non da un umano!
F: Ultimissima: un film o una serie TV a tema?
CT: Il film Gattaca, stupendo! E ovviamente 2001: Odissea nello spazio con il computer HAL 9000. Anche se ricordiamoci sempre che gli LLM non hanno una coscienza: sono solo algoritmi probabilistici che sanno fingere molto bene di averla.
FB: Per stimolare la creatività e immaginare le tecnologie future vi consiglio la serie Black Mirror e la serie animata Love, Death & Robots.
D: Fantastico. Grazie infinite per essere stati con noi!
CT e FB: Grazie mille a voi, ciao!