Incontra Fuyu-8B il modello di fondotinta molto particolare dietro la piattaforma Adept.

Incontra Fuyu-8B, il fondotinta rivoluzionario dietro la piattaforma Adept.

Il modello è stato progettato per compiti basati su agenti e presenta alcune capacità uniche per il linguaggio e la visione informatica.

Creato utilizzando Modjourney

Di recente ho avviato una newsletter educativa incentrata sull’IA, che conta già oltre 160.000 iscritti. TheSequence è una newsletter orientata al machine learning (senza iperboli, senza notizie, ecc…) che richiede solo 5 minuti di lettura. L’obiettivo è tenerlo aggiornato su progetti di apprendimento automatico, documenti di ricerca e concetti. Provate iscrivendovi qui sotto:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sulle evoluzioni nell’apprendimento automatico, intelligenza artificiale e dati…

thesequence.substack.com

Adept.ai fa parte della generazione di unicorni dell’IA appena nati. Inizialmente incubato da alcuni degli autori dell’iconico paper sui transformers, Adept opera nell’ambito degli agenti autonomi di intelligenza artificiale. Fino ad oggi, Adept ha raccolto oltre $415 milioni con una valutazione superiore a $1 miliardo. La piattaforma è dedicata alla creazione di agenti in grado di comprendere obiettivi di alto livello e convertirli in azioni, affidandosi principalmente alla visione informatica e al linguaggio. Fino ad ora si sapeva molto poco sui modelli dietro Adept, fino a quando Adept ha reso open source Fuyu-8B, una versione più piccola del modello che alimenta la sua piattaforma.

Adept si propone di creare un compagno intelligente per i lavoratori della conoscenza, un copilota digitale con una vasta intelligenza. Per raggiungere questo obiettivo, Adept pone una forte enfasi sulla comprensione del contesto dell’utente e sul compiere azioni per suo conto. Una parte cruciale di questo sforzo riguarda la comprensione delle immagini da parte di Adept. Nel mondo del lavoro basato sulla conoscenza, gli utenti si aspettano che il loro copilota acceda senza problemi a ciò che è visibile sul loro schermo. Spesso, informazioni vitali vengono trasmesse attraverso immagini, come grafici, diapositive o PDF. Inoltre, l’esecuzione di azioni spesso richiede l’interazione con elementi presenti sullo schermo, come pulsanti e menu. Sebbene sarebbe ideale se tutte queste attività potessero essere svolte tramite API, molti software orientati al business non dispongono di API complete, rendendo necessaria la navigazione di queste applicazioni attraverso le loro interfacce utente grafiche (GUI) per mantenere gli utenti coinvolti.

In generale, Fuyu-8B presenta alcune caratteristiche che lo rendono unico nella nuova generazione di modelli multimodali:

1. Più piccolo e più semplice rispetto all’architettura standard.

2. Progettato per il paradigma degli agenti.

3. Veloce.

4. In grado di corrispondere a modelli più grandi su benchmark standard superandoli nelle attività specifiche degli agenti.

L’architettura

Per quanto riguarda l’ultima generazione di modelli fondamentali, i modelli multimodali condividono una struttura comune. Tipicamente presentano un codificatore di immagini distinto, il cui output è integrato in un grande modello di linguaggio (LLM) esistente attraverso meccanismi di cross-attenzione o adattatori. Gli esempi sono ovunque. Modelli come PALM-e, PALI-X, QWEN-VL, LLaVA 1.5 e Flamingo aderiscono a questo paradigma. Questi modelli operano tipicamente a risoluzioni fisse per le immagini. Durante l’elaborazione, le immagini che superano questa risoluzione devono essere ridimensionate, mentre quelle con rapporti di aspetto diversi richiedono riempimento o distorsioni.

Sul fronte della formazione, molti altri modelli multimodali seguono un processo di formazione a più fasi. Il codificatore di immagini viene addestrato separatamente dal LLM, spesso utilizzando obiettivi di addestramento contrastivi, che possono essere complessi da implementare e gestire. Bisogna prendere decisioni su quando bloccare i pesi dei vari componenti. Alcuni modelli includono persino una fase aggiuntiva ad alta risoluzione per garantire una gestione competente delle immagini ad alta risoluzione.

La scalabilità di questi modelli rappresenta una sfida quando si determina come scalare proporzionalmente ciascuno di questi componenti. Sorgono domande su come allocare parametri aggiuntivi all’encoder rispetto al decoder e dove allocare risorse computazionali durante la formazione. Tuttavia, Adept presenta un modello che elude queste complessità.

Architetturalmente, Fuyu è un transformer semplice, solo a decodificatore, con le stesse specifiche di Persimmon-8B, privo di un codificatore di immagini dedicato. Le porzioni di immagine vengono proiettate direttamente nel primo strato del transformer, bypassando la ricerca dell’incorporamento. Questo approccio tratta il decodificatore tradizionale del transformer come un transformer per immagini, sebbene senza raggruppamento e con attenzione causale. Per ulteriori dettagli, fare riferimento al diagramma allegato.

Credito immagine: Adept

Questa semplificazione offre la flessibilità necessaria per gestire facilmente immagini di diverse risoluzioni. Per raggiungere questo obiettivo, i token delle immagini vengono trattati come i loro corrispettivi testuali. Gli embedding posizionali specifici per le immagini vengono rimossi e i token delle immagini vengono alimentati nel modello in ordine di scansione raster, con un carattere speciale di nuova riga per le immagini che indica i ritorni a capo. Il modello può sfruttare i suoi embedding posizionali esistenti per adattarsi a diverse dimensioni delle immagini. Durante l’addestramento, possono essere utilizzate immagini di qualsiasi dimensione, eliminando la necessità di fasi separate di addestramento ad alta e bassa risoluzione.

Le capacità

Oltre alle funzionalità standard attese nei modelli fondamentali multimodali, Fuyu-8B mostra un interessante insieme di capacità uniche:

QA nelle immagini

Fuyu dimostra la capacità di affrontare domande complesse all’interno delle immagini, come illustrato di seguito:

Credito immagine: Adept

Comprensione dei grafici

Di fronte a dati visivi complessi, come il grafico rappresentato di seguito, Fuyu eccelle nel discernere relazioni intricate, tracciare collegamenti tra vari elementi e fornire risposte pertinenti:

Credito immagine: Adept

Padronanza dei documenti

La competenza di Fuyu si estende anche alla decifrazione di una vasta gamma di documenti, che si tratti di infografiche intricate o di PDF che invecchiano:

Credito immagine: Adept

Interpretazione dei diagrammi

Le competenze del modello si estendono anche alla decodifica di complessi diagrammi scientifici, affrontando interrogativi di relazione intricati con destrezza:

Credito immagine: Adept

Competenza OCR

Oltre a queste competenze, Adept ha affinato i suoi modelli interni per eccellere in due compiti essenziali quando viene presentata un’immagine di un’interfaccia utente (UI):

· bbox_to_text: dato un rettangolo di delimitazione, Adept può identificare con precisione il testo contenuto all’interno di quel rettangolo di delimitazione.

· text_to_bbox: al contrario, quando viene fornito del testo, Adept può abilmente restituire il rettangolo di delimitazione che racchiude il testo specificato.

Credito immagine: Adept

Fuyu-8B è sicuramente uno dei più interessanti rilasci recenti nel campo dei modelli fondamentali open source. La semplicità della sua architettura e l’insieme unico di capacità lo rendono uno dei modelli da tenere d’occhio nello spazio.