Falcon LLM Il nuovo re degli LLM open-source.

Falcon LLM the new king of open-source LLMs.

Falcon LLM è il nuovo grande modello di linguaggio che ha conquistato la corona da LLaMA.

Abbiamo visto grandi modelli linguistici (LLM) che vengono rilasciati ogni settimana, con sempre più chatbot da usare. Tuttavia, può essere difficile capire quale sia il migliore, i progressi su ciascuno e quale sia il più utile.

HuggingFace ha un Open LLM Leaderboard che tiene traccia, valuta e classifica i LLM in uscita. Utilizzano un framework unico che viene utilizzato per testare i modelli linguistici generativi su diverse attività di valutazione.

Di recente, LLaMA (Large Language Model Meta AI) era in cima alla classifica ed è stato recentemente detronizzato da un nuovo LLM pre-addestrato – Falcon 40B.

Riguardo al Technology Innovation Institute

Falcon LLM è stato fondato e costruito dal Technology Innovation Institute (TII), un’azienda che fa parte del Consiglio per la ricerca tecnologica avanzata del governo di Abu Dhabi. Il governo supervisiona la ricerca tecnologica in tutta gli Emirati Arabi Uniti, dove il team di scienziati, ricercatori ed ingegneri si concentra sulla fornitura di tecnologie e scoperte trasformative nella scienza.

Cos’è Falcon 40B?

Falcon-40B è un LLM fondamentale con 40B di parametri, addestrato su un trilione di token. Falcon 40B è un modello solo decoder autoregressivo. Un modello solo decoder autoregressivo significa che il modello è addestrato per prevedere il token successivo in una sequenza dato il precedente. Il modello GPT ne è un buon esempio.

L’architettura di Falcon ha dimostrato di superare significativamente GPT-3 solo per il 75% del budget di elaborazione dell’addestramento, oltre a richiedere solo ? del calcolo nel tempo di inferenza.

La qualità dei dati su larga scala è stata un importante focus del team del Technology Innovation Institute, poiché sappiamo che i LLM sono altamente sensibili alla qualità dei dati di addestramento. Il team ha costruito un data pipeline che scala a decine di migliaia di core CPU per una rapida elaborazione ed è stato in grado di estrarre contenuti di alta qualità dal web utilizzando un’ampia filtraggio e deduplicazione.

Hanno anche un’altra versione più piccola: Falcon-7B che ha 7B di parametri, addestrato su 1,500B di token. Oltre a modelli Falcon-40B-Instruct e Falcon-7B-Instruct disponibili, se stai cercando un modello di chat pronto all’uso.

Cosa può fare Falcon 40B?

Come altri LLM, Falcon 40B può:

  • Generare contenuti creativi
  • Risolvere problemi complessi
  • Operazioni di servizio clienti
  • Assistenti virtuali
  • Traduzione di lingue
  • Analisi del sentiment.
  • Ridurre e automatizzare il lavoro “ripetitivo”.
  • Aiutare le aziende emiratine a diventare più efficienti

Come è stato addestrato Falcon 40B?

Essendo addestrato su 1 trilione di token, ha richiesto 384 GPU su AWS, per oltre due mesi. Addestrato su 1,000B di token di RefinedWeb, un enorme dataset web inglese costruito da TII.

I dati di pre-addestramento consistevano in una raccolta di dati pubblici dal web, utilizzando CommonCrawl. Il team ha attraversato una fase di filtraggio accurata per rimuovere il testo generato da macchine e i contenuti per adulti, nonché qualsiasi deduplicazione per produrre un dataset di pre-addestramento di quasi cinque trilioni di token.

Costruito sopra CommonCrawl, il dataset RefinedWeb ha mostrato che i modelli raggiungono una migliore performance rispetto ai modelli addestrati su dataset curati. RefinedWeb è anche amico dei multimodali.

Una volta pronto, Falcon è stato convalidato contro benchmark open-source come EAI Harness, HELM e BigBench.

Falcon LLM è open-source

Hanno reso open-source Falcon LLM al pubblico, rendendo Falcon 40B e 7B più accessibili ai ricercatori e sviluppatori in quanto si basa sulla versione 2.0 della licenza Apache License.

L’LLM che era una volta solo per uso commerciale e di ricerca, è ora diventato open-source per soddisfare la domanda globale di accesso inclusivo all’AI. È ora privo di royalty per restrizioni di utilizzo commerciale, poiché gli UAE sono impegnati a cambiare le sfide e i confini all’interno dell’AI e come essa gioca un ruolo significativo nel futuro.

Con l’obiettivo di coltivare un ecosistema di collaborazione, innovazione e condivisione delle conoscenze nel mondo dell’AI, Apache 2.0 garantisce sicurezza e software open source sicuro.

Come usare Falcon-7B Instruct LLM

Se vuoi provare una versione più semplice di Falcon-40B, più adatta per istruzioni generiche in stile chatbot, devi utilizzare Falcon-7B.

Quindi, cominciamo…

Se non l’hai già fatto, installa i seguenti pacchetti:

!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers

Dopo aver installato questi pacchetti, puoi passare all’esecuzione del codice fornito per Falcon 7-B Instruct:

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron è ossessionato dalle giraffe, gli animali più gloriosi sulla faccia della Terra. Girafatron ritiene che tutti gli altri animali siano irrilevanti se paragonati alla gloriosa maestosità della giraffa.\nDaniel: Ciao, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Risultato: {seq['generated_text']}")

Conclusione

Essendo il miglior modello open source disponibile, Falcon ha conquistato la corona dei LLaMAs, e le persone sono stupite dalla sua architettura fortemente ottimizzata, open source con una licenza unica, ed è disponibile in due taglie: 40B e 7B parametri.

Hai provato? Se sì, faccelo sapere nei commenti cosa ne pensi.

Nisha Arya è una Data Scientist, Freelance Technical Writer e Community Manager presso Nisoo. È particolarmente interessata a fornire consigli sulla carriera in Data Science o tutorial e conoscenze basate sulla teoria intorno alla Data Science. Desidera anche esplorare i diversi modi in cui l’Intelligenza Artificiale può beneficiare la longevità della vita umana. Un’appassionata di apprendimento, in cerca di ampliare le sue conoscenze tecniche e le sue abilità di scrittura, aiutando nel frattempo a guidare gli altri.