I ricercatori della Boston University rilasciano la famiglia Platypus di LLM (Language Model) ottimizzati per ottenere un perfezionamento economico, rapido e potente dei LLM di base.

I ricercatori della Boston University rilasciano la famiglia Platypus di LLM ottimizzati per un perfezionamento economico, rapido e potente dei LLM di base.

I Large Language Models (LLM) hanno spopolato nel mondo. Questi modelli super efficaci ed efficienti si pongono come meraviglie moderne dell’Intelligenza Artificiale. Con la capacità di comprendere il contesto, generare testo e conversare coerentemente, sono diventati capaci di ridefinire la comunicazione tra esseri umani e macchine. I ricercatori si sono concentrati sul miglioramento delle prestazioni dei modelli di base Large Language Models con l’aiuto di una procedura chiamata parameter efficient tuning (PEFT), che comporta l’ottimizzazione dei LLM sul piccolo e potente dataset Open-Platypus.

Recentemente, un team di ricercatori della Boston University ha introdotto Platypus, una famiglia unica di Large Language Models migliorati e combinati che hanno raggiunto prestazioni senza pari e attualmente occupano il primo posto nella Open LLM Leaderboard di HuggingFace. Il dataset attentamente curato noto come Open-Platypus è una delle pietre miliari e questo dataset è stato reso accessibile al pubblico dopo essere stato scelto con cura tra una varietà di altri dataset gratuiti. Si tratta di un sottoinsieme più piccolo di dataset più grandi che si concentra su particolari elementi cruciali per migliorare le prestazioni dei LLM.

Sfruttando informazioni specifiche del dominio, l’obiettivo del team è mantenere la solida conoscenza precedente dei LLM preallenati e affinare e unire i moduli LoRA. Il modello può essere adattato a compiti specifici tramite l’affinamento, preservando al contempo la conoscenza più ampia accumulata durante l’addestramento iniziale. Quando i moduli LoRA vengono combinati, diversi componenti vengono uniti per produrre un LLM più forte. Il potenziale nascosto del modello e la conoscenza specializzata del dominio possono essere svelati grazie alla sinergia.

Un aspetto cruciale del lavoro è stato il rigoroso sforzo dedicato a verificare l’integrità dei dati di test e identificare eventuali contaminazioni nei dati di addestramento. Alcuni controlli approfonditi supportano l’affidabilità e l’accuratezza delle serie di modelli Platypus e la divulgazione del metodo per questa procedura di verifica potrebbe fungere da manuale per ulteriori ricerche di campo.

La famiglia di modelli Platypus, che spazia in una varietà di dimensioni di modelli, ha prestazioni eccezionali in metriche quantitative LLM. Si trova in cima alla Open LLM leaderboard a livello globale, un risultato che attesta l’efficacia della strategia. Il team ha condiviso che il loro modello si comporta tanto bene quanto altri LLM addestrati in modo ottimale, impiegando una piccola parte dei dati di affinamento e delle risorse di calcolo. Ad esempio, un modello Platypus da 13B può essere addestrato con successo in un notevole lasso di tempo di 5 ore utilizzando solo una singola GPU A100 e solo 25k domande. Questa incredibile efficienza mette in evidenza l’eccellente qualità del dataset Open-Platypus e apre la strada a ulteriori sviluppi nel settore.

Le contribuzioni possono essere riassunte come segue:

  1. Open-Platypus, un dataset compatto composto da 11 dataset di testo pubblici, è stato introdotto per migliorare le conoscenze STEM e logiche dei LLM.
  1. Questo dataset, composto principalmente da domande progettate dall’uomo, offre prestazioni elevate con un tempo e un costo di affinamento minimi.
  1. Il team ha condiviso la descrizione del processo per escludere dati simili al fine di ridurre le dimensioni e la ridondanza del dataset.
  1. È stato esplorato il problema della contaminazione dei dati nei set di addestramento LLM e il processo di filtraggio dei dati.
  1. È stata condivisa un’esplicazione dell’approccio di selezione e unione per i moduli di affinamento specializzati LoRA, contribuendo al miglioramento complessivo delle prestazioni dei LLM.