Sappiamo che i grandi modelli linguistici dell’intelligenza artificiale hanno bisogno di una massa immane di dati per migliorare le prestazioni dei loro chatbot. Sappiamo anche che necessitano di ingenti risorse umane per raffinare l’apprendimento attraverso il cosiddetto reinforcement learning. Quest’ultimo avviene, infatti, con i feedback di persone che valutano le risposte sui vari argomenti.
Queste due condizioni dovrebbero aumentare l’accuratezza delle risposte dei modelli e diminuire gli errori, le allucinazioni, che, ahimè, sono ancora frequenti. E più dati significa maggiore accuratezza. Pertanto tali modelli hanno una tendenza innata al gigantismo.
Gigantismo che esige una potenza di calcolo enorme, a monte, nella fase di apprendimento e, a valle, per servire milioni di utenze che gli si rivolgono per avere delle risposte. Nel marzo di quest’anno, per esempio, erano 200 milioni gli utenti attivi di ChatGPT. Ottenere una tale potenza di calcolo presuppone una disponibilità di dispositivi, apparati, software ed energia senza precedenti nella storia della computazione.
Tali pre-requisiti fanno sì che la costruzione e il mantenimento di grandi sistemi linguistici generali richieda degli investimenti che solo poche grandi società possono permettersi. Si stima che nel solo primo quadrimestre del 2004 i giganti dell’high tech (Meta, Microsoft, Google e Amazon) abbiano speso 32 miliardi di dollari in infrastrutture tecnologiche per supportare l’AI.
Esiste quindi una barriera formidabile all’ingresso di nuovi soggetti in questo settore che si stima possa valere, nel 2031, ben mille miliardi di dollari.
La ricerca di nuovi modelli
Non meraviglia, quindi, che si stia lavorando per abbassare considerevolmente questa barriera d’ingresso. Per esempio, sviluppando modelli di apprendimento alternativi per eliminare completamente la presenza umana nella fase di tuning dei dati. Si valuta anche che questi nuovi modelli potrebbero essere fino a sette volte meno energivori di quelli usati da OpenAi e Google Gemini. Aspetto importante quest’ultimo perché lo sviluppo dell’AI, nella sua forma attuale, impatta negativamente l’ambiente.
Uno di questi modelli lo troviamo nella soluzione proposta dalla start up europea Mistral e anche in Claude, il modello linguistico di Anthropic, una start up diretta da Dario Amodei. Pure Llama 3, che Meta si appresta lanciare, e ChatGPT 5, di prossimo rilascio, si avvalgono di questi modelli innovativi. In questi giorni ricercatori di Amazon hanno presentato un metodo (model disgorgement) per eliminare gli errori e i dati non desiderati dal modello generale senza rigenerarlo daccapo.
In realtà, però, la novità più dirompente è un differente tipo di approccio al problema dell’offerta di intelligenza artificiale. Si tratta di un approccio simile a quello che si va affacciando nell’ambito dell’energia nucleare con gli small modular reactor (SMRs).
Ci stiamo riferendo a sistemi di intelligenza artificiale più piccoli, specializzati e meno costosi da creare e manutenere. Questi modelli possono essere utilizzati su una gamma ampia di dispositivi come smartphone, fotocamere e sensori consentendo così di raggiungere quegli utenti, come piccole aziende e professionisti che non possono permettersi i grandi modelli. Inoltre, non avendo bisogno del cloud o della connessione a Internet per funzionare, essi offrono una prima soluzione al notevole problema della privacy, della protezione dei dati e del diritto d’autore.
Questa settimana, Microsoft e Apple hanno lanciato rispettivamente Phi-3 e OpenELM, due famiglie di modelli linguistici che utilizzano una risorsa di calcolo più limitata rispetto ai modelli che conosciamo già. E cosa ancor più interessante è che il codice di entrambe le famiglie è nel pubblico dominio.
La famiglia Phi-3 di Microsoft
“L’approccio che stiamo adottando nella serie Phi è diverso da quello ricercato dal resto dell’industria che sembra concentrarsi principalmente sull’ingrandimento con l’obiettivo di aggiungere più dati e rendere così il modello più grande”, ha detto Sébastién Bubeck, vicepresidente della ricerca sull’intelligenza artificiale generativa di Microsoft, a Katyanna Quach del magazine “Semafor”, una testata giornalistica online globale fondata nel 2022 da Ben Smith, ex editorialista del “New York Times”.
Per Microsoft, investire in modelli più piccoli ha il senso di offrire ai clienti più opzioni rispetto ai sistemi più grandi nati dalla partnership con OpenAI. Chi non può permettersi di utilizzare modelli di quella fascia può ricorrere ad alternative più piccole come il Phi-3 mini.
Microsoft ha utilizzato un mix di dati reali estratti dal web e dati sintetici generati dall’Ai stessa per addestrare i set della famiglia Phi-3.
“Il motivo per cui Phi-3 è così valido per le sue dimensioni – ha affermato Bubeck – è perché abbiamo elaborato i dati con molta più attenzione”. Questo significa che il testo impiegato per l’addestramento del modello è stato controllato e selezionato alla fonte per garantire la qualità e l’accuratezza del materiale di apprendimento.
Secondo l’azienda di Seattle le prestazioni di Phi-3 sono simili a quelle offerte da ChatGPT 3.5, la versione di Open AI gratuita.
La famiglia OpenELM di Apple
Una filosofia analoga informa la famiglia scalare OpenELM di Apple. La sua caratteristica è che può funzionare con le risorse dell’iPhone e sugli altri dispositivi della casa di Cupertino grazie al bilanciamento tra performance e requisiti di sistema. Questo bilanciamento è essenziale per l’esecuzione di OpenELMa localmente, con i dati e le elaborazioni che avvengono sul dispositivo.
Anche nel caso di OpenELM la scelta degli sviluppatori è caduta sulla qualità del testo e dei dati utilizzati per addestrare il modello. Il team di Apple ha filtrato il testo da set di dati pubblici, cercando di conservare e trasferire al modello la complessità delle strutture linguistiche e del lessico del linguaggio naturale.
Sebbene Apple non abbia ancora integrato Open ELM nei suoi dispositivi, si ritiene che il prossimo aggiornamento di iOS (il 18, previsto in occasione della conferenza mondiale degli sviluppatori agli inizi di giugno) lo includa, compreso il miglioramento a Siri e le funzioni di riassunto e completamento automatico nelle app. Tali nuove prestazioni dovrebbero eseguirsi meglio sugli iPhone 16 che saranno dotati del nuovo chip M4 più potente e ottimizzato per questi compiti.
La ratio dei modelli piccoli
Non tutti gli utenti necessitano del modello linguistico più avanzato o all’avanguardia in grado di analizzare centinaia di documenti o di ricerche scientifiche. Per molti compiti specifici, i modelli più piccoli possono funzionare bene in modo efficiente, veloce ed economico.
Nei test di benchmarking, Phi-mini, composto da 3,8 miliardi di parametri a paragone dei 175 miliardi di ChatGPT-3.5, ha prestazioni che non divergono in modo significativo da quest’ultimo.
I modelli OpenELM di Apple sono ancora più piccoli: variano tra 270 milioni e 3 miliardi di parametri. Per capire la dimensione in miniatura della soluzione Apple, basta considerare che il nuovo modello Llama 3 di Meta, inscrivibile nella categoria dei piccoli, è composto da 8 miliardi di parametri.
La versione media della famiglia OpenELM di Apple, che ha poco più di un miliardo di parametri, sembra superare in prestazioni modelli di dimensioni comparabili pur essendo addestrata con meno dati.
La scelta dei sistemi aperti
L’intelligenza artificiale non ha ancora avuto un impatto enorme sugli smartphone e le aziende tecnologiche si stanno muovendo rapidamente per esplorarne le possibilità. Non c’è modo migliore per vedere quali nuovi prodotti e app di intelligenza artificiale possano essere costruiti, se non aprendoli alla sperimentazione degli sviluppatori.
Per questo anche Apple, notoriamente riservata riguardo alla propria tecnologia, ha rilasciato nel pubblico dominio il codice sorgente e le istruzioni di addestramento per il suo sistema OpenELM.
In un documento, i ricercatori di Apple hanno spiegato che la riproducibilità e la trasparenza degli LLM sono vitali per far avanzare l’intelligenza artificiale e indagare i suoi potenziali pregiudizi e rischi.
Sono davvero validi questi piccoli modelli?
A questo punto viene da chiedersi se l’Ai in miniatura sia davvero quella buona idea che appare. Purtroppo i benchmark e i test utilizzati per valutare le prestazioni dell’intelligenza artificiale non sono sempre affidabili ed è difficile confrontarli accuratamente.
È questa uno delle principali conclusioni dell’ultimo rapporto “AI Index” dell’Università di Stanford. “Semafor” riporta una dichiarazione del responsabile della ricerca, Nestor Maslej, secondo il quale alcuni dei benchmark non riflettono il modo nel quale le persone usano effettivamente i chatbot. L’industria sta testando la loro efficienza nella risoluzione di problemi di matematica.
Ma la maggior parte degli utenti non si preoccupa troppo del modo di risolvere equazioni matematiche e preferirebbe che un modello fosse in primo luogo più accurato.
. . .
Fonti:
- Katyanna Quach, Microsoft, Apple look to go big with smaller AI models, “Semafor”, 26 aprile 2024
- Kate O’Flaherty, New iOS 18 AI Security Move Changes The Game For All iPhone Users, “Forbes”, 29 aprile 2024
- Karen Weise e Cade Metz, Microsoft Makes a New Push Into Smaller A.I. Systems, “The New York Times”, 23 aprile 2024
- Katyanna Quach, ’Disgorgement’: Amazon researchers suggest ways to get rid of bad AI data, “Semafor”, 1 maggio 2024
- Karen Weise, In Race to Build A.I., Tech Plans a Big Plumbing Upgrade, “The New York Times”, 27 aprile 2024
- Kevin Roose, A.I. Has a Measurement Problem, “The New York Times”, 15 aprile 2024
- Madhumita Murgia e Cristina Criddle, OpenAI and Meta ready new AI models capable of ‘reasoning’, “The Financial Times”, 9 aprile 2024