Presentiamo MPT-7B un nuovo LLM open-source

Introducing MPT-7B, a new open-source LLM.

Un LLM addestrato su 1T di token di testo e codice dalla serie MosaicML Foundation.

I Large language model (LLM) sono impazziti al momento. Tuttavia, come organizzazione, se non hai le risorse giuste, può essere difficile salire sull’onda dei grandi modelli di lingua. La formazione e la distribuzione di grandi modelli di lingua possono essere difficili e ti senti improvvisamente escluso. LLM open source, come la serie LLaMA di Meta, hanno consentito di rendere disponibili le risorse LLM.

E per aggiungere alla raccolta open source c’è l’ultima aggiunta della serie MosaicML Foundations – MPT-7B.

Che cos’è MPT-7B?

MPT sta per MosaicML Pretrained Transformer. I modelli MPT sono trasformatori solo-decoder di stile GPT che presentano molte migliorie:

  • Implementazioni di livello ottimizzate per le prestazioni
  • Maggiore stabilità di formazione a causa di cambiamenti di architettura
  • Nessuna limitazione della lunghezza del contesto

MPT-7B è un modello di trasformatore che è stato addestrato da zero utilizzando 1T di token di testo e codice. Sì, 1 TRILIONE! È stato addestrato sulla piattaforma MosaicML, con una durata di 9,5 giorni senza alcun intervento umano. Il costo per MosaicML è stato di circa $200.000.

È open source, rendendolo disponibile per l’uso commerciale e lo strumento cambierà il modo in cui le aziende e le organizzazioni lavorano con le loro analisi predictive e il processo decisionale.

Le principali caratteristiche di MPT-7B sono:

  • Licenza per uso commerciale
  • Addestrato su una grande quantità di dati (1T di token)
  • Può gestire input estremamente lunghi
  • ottimizzato per la formazione e l’inferenza veloci
  • Codice di formazione open source altamente efficiente.

MPT-7B è il modello base e ha dimostrato di superare altri modelli open source da 7B a 20B. La qualità di MPT-7B corrisponde a LLaMA-7B. Per valutare la qualità di MPT-7B, MosaicML Foundation ha messo insieme 11 benchmark open source e li ha valutati utilizzando il metodo standard del settore.

Le fondazioni MosaicML stanno anche rilasciando tre modelli aggiuntivi sintonizzati:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

Il modello MPT-7B-Instruct è per l’istruzione a breve termine. Con 26.834 datati 14 maggio, MPT-7B-Instruct consente di porre domande rapide e brevi e fornisce una risposta istantanea. Hai una domanda e vuoi solo una risposta semplice: usa MPT-7B-Instruct.

Perché questo è così fantastico? Tipicamente, i LLM sono istruiti a continuare a generare testo in base all’input fornito. Tuttavia, alcuni cercano LLM che trattino il loro input come un’istruzione. Il sintonizzazione dell’istruzione consente ai LLM di eseguire output di istruzioni.

MPT-7B-Chat

Sì, abbiamo un altro chatbot. MPT-7B-Chat genera dialogo. Ad esempio, se si desidera che il chatbot generi un discorso, dando un contesto, genererà un testo in modo conversazionale. O forse vuoi scrivere un tweet che parafrasi un paragrafo da un articolo, può generare il dialogo per te!

Perché questo è così fantastico? MPT-7B Chat è pronto e ben attrezzato per una varietà di compiti conversazionali, offrendo interazioni multiturno più fluide e coinvolgenti per gli utenti.

MPT-7B-StoryWriter-65k+

Questo è per gli scrittori di storie! Per coloro che desiderano scrivere storie con un lungo contesto, MPT-7B-StoryWriter-65k+ è un modello progettato appositamente per questo. Il modello è stato costruito attraverso l’ottimizzazione di MPT-7B con una lunghezza del contesto di 65k token e può estrapolare oltre i 65k token. MosaicML Foundation è stata in grado di generare 84k token su un singolo nodo di GPU A100-80GB.

Perché è così fantastico? Questo perché la maggior parte dei LLM open-source può gestire solo sequenze con un massimo di poche migliaia di token. Ma usando solo un singolo nodo di 8xA100-80GB sulla piattaforma MosaicML, è possibile affinare MPT-7B per gestire lunghezze di contesto fino a 65k!

Ulteriori informazioni su come è stato creato MPT-7B

Il team di MosaicML ha costruito questi modelli in poche settimane. In poche settimane si sono occupati della preparazione dei dati, dell’addestramento, dell’affinamento e del rilascio.

I dati sono stati raccolti da una varietà di fonti, ognuna delle quali aveva un miliardo di token disponibili in ogni fonte. Il numero di token effettivi è rimasto un miliardo in ogni fonte! Il team ha utilizzato il tokenizer GPT-NeoX di EleutherAI e 20B, consentendo loro di addestrarsi su una miscela diversificata di dati, applicare una delimitazione dello spazio costante e altro ancora.

Tutti i modelli MPT-7B sono stati addestrati sulla piattaforma MosaicML, utilizzando GPU A100-40GB e A100-80GB di Oracle Cloud.

Se vuoi saperne di più sugli strumenti e sui costi di MPT-7B, leggi il blog MPT-7B.

Conclusione

La piattaforma MosaicML può essere considerata come il miglior punto di partenza per le organizzazioni, sia esse private, commerciali o comunitarie, per costruire LLM personalizzati. Avere questa risorsa open-source a disposizione consentirà alle organizzazioni di sentirsi più libere nell’uso di questi strumenti per migliorare le attuali sfide organizzative.

I clienti sono in grado di addestrare LLM su qualsiasi fornitore di calcolo o fonte dati, mantenendo efficienza, privacy e trasparenza dei costi.

Cosa pensi di utilizzare MPT-7B? Facci sapere nei commenti qui sotto. Nisha Arya è una Data Scientist, una scrittrice tecnica freelance e una Community Manager presso Nisoo. È particolarmente interessata a fornire consigli o tutorial sulla carriera di Data Science e conoscenze teoriche sulla Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare la longevità della vita umana. Una appassionata di apprendimento, alla ricerca di ampliare le sue conoscenze tecnologiche e le sue competenze di scrittura, aiutando nel frattempo a guidare gli altri.