DeepSeek ha recentemente fatto scalpore nel mondo della tecnologia con il suo nuovo modello di intelligenza artificiale, R1. Questo modello mostra una capacità di ragionamento paragonabile a quella di o1 di OpenAI, ma con una notevole differenza: DeepSeek sostiene che il suo modello è stato addestrato a un costo significativamente inferiore.
Sebbene si sia discusso se DeepSeek sia un vero affare o un DeepFake, è chiaro che si tratta di un campanello d'allarme: il percorso di LLM sempre più grandi che si affidano a GPU sempre più grandi e a enormi quantità di energia non è l'unica strada percorribile. Infatti, è ormai evidente che i vantaggi di questo approccio sono limitati, per diversi motivi:
In primo luogo, la scalabilità pura degli LLM al momento dell'addestramento ha raggiunto il punto di diminuzione dei rendimenti o forse addirittura di quasi azzeramento. Modelli più grandi addestrati con più dati non producono miglioramenti significativi.
Inoltre, per la maggior parte dei casi d'uso, le aziende non hanno bisogno di LLM massicci e "ask-me-anything". Anche prima di DeepSeek, c'è stato un notevole spostamento verso modelli più piccoli e specializzati, adattati a specifiche esigenze aziendali. Con l'emergere di un maggior numero di casi d'uso dell'intelligenza artificiale a livello aziendale, la questione si sposta sull'inferenza, ovvero sull'esecuzione dei modelli per creare valore. In molti casi, ciò avverrà ai margini di Internet, vicino agli utenti finali. I modelli più piccoli, ottimizzati per essere eseguiti su hardware ampiamente disponibili, creeranno più valore a lungo termine rispetto agli LLM di dimensioni eccessive.
Infine, lo spazio LLM sta entrando in un'era di ottimizzazione. I modelli di IA che abbiamo visto finora si sono concentrati sull'innovazione, scalando ad ogni costo. L'efficienza, la specializzazione e l'ottimizzazione delle risorse sono di nuovo al centro dell'attenzione, un segnale del fatto che il futuro dell'IA non si basa solo sulla forza bruta, ma sul modo in cui questa potenza viene impiegata in modo strategico ed efficiente.
DeepSeek evidenzia molto bene questo punto nei suoi documenti tecnici, che mostrano un tour de force di ottimizzazione ingegneristica. I loro progressi includono modifiche all'architettura del trasformatore e tecniche per ottimizzare l'allocazione delle risorse durante l'addestramento. Sebbene queste innovazioni facciano progredire il campo, si tratta di passi incrementali verso il progresso piuttosto che di una rivoluzione radicale della tecnologia AI.
E mentre i media fanno un gran parlare dei loro progressi, che sono davvero notevoli, in generale non colgono un punto chiave: se DeepSeek non l'avesse fatto, l'avrebbe fatto qualcun altro. E probabilmente sono solo i primi di quella che sarà una nuova ondata di IA che sfrutta significativi guadagni di efficienza sia nei costi di formazione dei modelli che nelle dimensioni.
È importante contestualizzare i risultati di DeepSeek. I progressi dell'azienda sono l'ultimo passo di una marcia costante che da anni fa progredire lo stato dell'arte dell'architettura e della formazione LLM. Non si tratta di una svolta dirompente. Sebbene la notizia sia stata un campanello d'allarme per molti, avrebbe dovuto essere attesa da coloro che prestano molta attenzione alle tendenze del settore. La realtà è che nei due anni trascorsi da quando OpenAI ha addestrato GPT-4, lo stato dell'arte dell'efficienza dell'addestramento è progredito notevolmente. E non si tratta solo di hardware (GPU), ma anche di algoritmi e software. Non dovrebbe quindi sorprendere che un'azienda, anche una società come DeepSeek che non ha accesso alle GPU più recenti e più potenti, possa ora addestrare modelli di qualità pari a quella di GPT-4 a un costo molto inferiore.
A DeepSeek va il merito di aver compiuto questo passo e di averlo divulgato in modo così approfondito, ma è solo un'altra pietra miliare prevista nell'evoluzione tecnica dell'IA che sarà seguita da molte altre.
Commenti