Presentiamo MPT-7B un nuovo LLM open-source
Introducing MPT-7B, a new open-source LLM.
Un LLM addestrato su 1T di token di testo e codice dalla serie MosaicML Foundation.
I Large language model (LLM) sono impazziti al momento. Tuttavia, come organizzazione, se non hai le risorse giuste, può essere difficile salire sull’onda dei grandi modelli di lingua. La formazione e la distribuzione di grandi modelli di lingua possono essere difficili e ti senti improvvisamente escluso. LLM open source, come la serie LLaMA di Meta, hanno consentito di rendere disponibili le risorse LLM.
E per aggiungere alla raccolta open source c’è l’ultima aggiunta della serie MosaicML Foundations – MPT-7B.
- LLM Apocalypse Now La Vendetta dei Cloni Open Source
- Apprendimento Profondo con R
- I migliori framework di AutoML da considerare nel 2023
Che cos’è MPT-7B?
MPT sta per MosaicML Pretrained Transformer. I modelli MPT sono trasformatori solo-decoder di stile GPT che presentano molte migliorie:
- Implementazioni di livello ottimizzate per le prestazioni
- Maggiore stabilità di formazione a causa di cambiamenti di architettura
- Nessuna limitazione della lunghezza del contesto
MPT-7B è un modello di trasformatore che è stato addestrato da zero utilizzando 1T di token di testo e codice. Sì, 1 TRILIONE! È stato addestrato sulla piattaforma MosaicML, con una durata di 9,5 giorni senza alcun intervento umano. Il costo per MosaicML è stato di circa $200.000.
È open source, rendendolo disponibile per l’uso commerciale e lo strumento cambierà il modo in cui le aziende e le organizzazioni lavorano con le loro analisi predictive e il processo decisionale.
Le principali caratteristiche di MPT-7B sono:
- Licenza per uso commerciale
- Addestrato su una grande quantità di dati (1T di token)
- Può gestire input estremamente lunghi
- ottimizzato per la formazione e l’inferenza veloci
- Codice di formazione open source altamente efficiente.
MPT-7B è il modello base e ha dimostrato di superare altri modelli open source da 7B a 20B. La qualità di MPT-7B corrisponde a LLaMA-7B. Per valutare la qualità di MPT-7B, MosaicML Foundation ha messo insieme 11 benchmark open source e li ha valutati utilizzando il metodo standard del settore.
Le fondazioni MosaicML stanno anche rilasciando tre modelli aggiuntivi sintonizzati:
- MPT-7B-Instruct
- MPT-7B-Chat
- MPT-7B-StoryWriter-65k+
MPT-7B-Instruct
Il modello MPT-7B-Instruct è per l’istruzione a breve termine. Con 26.834 datati 14 maggio, MPT-7B-Instruct consente di porre domande rapide e brevi e fornisce una risposta istantanea. Hai una domanda e vuoi solo una risposta semplice: usa MPT-7B-Instruct.
Perché questo è così fantastico? Tipicamente, i LLM sono istruiti a continuare a generare testo in base all’input fornito. Tuttavia, alcuni cercano LLM che trattino il loro input come un’istruzione. Il sintonizzazione dell’istruzione consente ai LLM di eseguire output di istruzioni.
MPT-7B-Chat
Sì, abbiamo un altro chatbot. MPT-7B-Chat genera dialogo. Ad esempio, se si desidera che il chatbot generi un discorso, dando un contesto, genererà un testo in modo conversazionale. O forse vuoi scrivere un tweet che parafrasi un paragrafo da un articolo, può generare il dialogo per te!
Perché questo è così fantastico? MPT-7B Chat è pronto e ben attrezzato per una varietà di compiti conversazionali, offrendo interazioni multiturno più fluide e coinvolgenti per gli utenti.
MPT-7B-StoryWriter-65k+
Questo è per gli scrittori di storie! Per coloro che desiderano scrivere storie con un lungo contesto, MPT-7B-StoryWriter-65k+ è un modello progettato appositamente per questo. Il modello è stato costruito attraverso l’ottimizzazione di MPT-7B con una lunghezza del contesto di 65k token e può estrapolare oltre i 65k token. MosaicML Foundation è stata in grado di generare 84k token su un singolo nodo di GPU A100-80GB.
Perché è così fantastico? Questo perché la maggior parte dei LLM open-source può gestire solo sequenze con un massimo di poche migliaia di token. Ma usando solo un singolo nodo di 8xA100-80GB sulla piattaforma MosaicML, è possibile affinare MPT-7B per gestire lunghezze di contesto fino a 65k!
Ulteriori informazioni su come è stato creato MPT-7B
Il team di MosaicML ha costruito questi modelli in poche settimane. In poche settimane si sono occupati della preparazione dei dati, dell’addestramento, dell’affinamento e del rilascio.
I dati sono stati raccolti da una varietà di fonti, ognuna delle quali aveva un miliardo di token disponibili in ogni fonte. Il numero di token effettivi è rimasto un miliardo in ogni fonte! Il team ha utilizzato il tokenizer GPT-NeoX di EleutherAI e 20B, consentendo loro di addestrarsi su una miscela diversificata di dati, applicare una delimitazione dello spazio costante e altro ancora.
Tutti i modelli MPT-7B sono stati addestrati sulla piattaforma MosaicML, utilizzando GPU A100-40GB e A100-80GB di Oracle Cloud.
Se vuoi saperne di più sugli strumenti e sui costi di MPT-7B, leggi il blog MPT-7B.
Conclusione
La piattaforma MosaicML può essere considerata come il miglior punto di partenza per le organizzazioni, sia esse private, commerciali o comunitarie, per costruire LLM personalizzati. Avere questa risorsa open-source a disposizione consentirà alle organizzazioni di sentirsi più libere nell’uso di questi strumenti per migliorare le attuali sfide organizzative.
I clienti sono in grado di addestrare LLM su qualsiasi fornitore di calcolo o fonte dati, mantenendo efficienza, privacy e trasparenza dei costi.
Cosa pensi di utilizzare MPT-7B? Facci sapere nei commenti qui sotto. Nisha Arya è una Data Scientist, una scrittrice tecnica freelance e una Community Manager presso Nisoo. È particolarmente interessata a fornire consigli o tutorial sulla carriera di Data Science e conoscenze teoriche sulla Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare la longevità della vita umana. Una appassionata di apprendimento, alla ricerca di ampliare le sue conoscenze tecnologiche e le sue competenze di scrittura, aiutando nel frattempo a guidare gli altri.