Stability AI rilascia il primo modello giapponese di visione-linguaggio

Stability AI releases first Japanese vision-language model.

La creazione e formulazione di un singolo modello globale in grado di gestire una varietà di compiti definiti dall’utente è da tempo un campo di interesse nella ricerca sull’intelligenza artificiale (AI). Questo è stato particolarmente evidente nel Natural Language Processing (NLP) attraverso il “tuning delle istruzioni”. Questo metodo consente al modello di svolgere in modo competente istruzioni arbitrarie migliorando un grande modello di linguaggio (LLM) attraverso l’esposizione a una vasta gamma di attività, ognuna espressa tramite istruzioni in linguaggio naturale.

Un esempio di questo è l’uso del modello Vision-Language. Un “modello Vision-Language” (VLM) è un tipo di intelligenza artificiale che è competente nella comprensione di testi e immagini come input. Possono svolgere varie attività che coinvolgono l’interazione tra dati visivi e testuali. Sono utilizzati per la descrizione delle immagini, la risposta a domande visive e la creazione di descrizioni testuali di scenari visivi o la traduzione tra lingue e rappresentazioni visive.

Recentemente, i ricercatori di Stability AI hanno annunciato il rilascio del loro primo modello giapponese Vision-Language, Japanese InstructBLIP Alpha. Ci sono stati molti modelli Vision-Language, ma questo è il primo a produrre descrizioni di testo in giapponese. Questo nuovo algoritmo è destinato a produrre descrizioni di testo in giapponese per le foto in arrivo e risposte testuali alle query correlate alle immagini.

I ricercatori hanno sottolineato che il modello può riconoscere specifici luoghi di interesse giapponesi. Per utilizzi che vanno dalla robotica al turismo, questa capacità offre un livello essenziale di consapevolezza localizzata. Inoltre, il modello può gestire testo e immagini, consentendo query più complesse basate su input visivi.

I ricercatori hanno condotto una ricerca approfondita per sviluppare questo modello e hanno utilizzato dati di istruzioni diversi per addestrare questo modello. Per collegare i due, hanno addestrato il modello con un codificatore di immagini, un LLM e un Query Transformer (Q-Former). Inoltre, hanno perfezionato il Q-Former per il tuning delle istruzioni lasciando il codificatore di immagini e il LLM congelati.

Inoltre, i ricercatori hanno raccolto 26 set di dati pubblicamente disponibili, che comprendono una vasta gamma di funzioni e compiti, e li hanno convertiti in un formato di tuning delle istruzioni. Il modello è stato addestrato su 13 set di dati e ha mostrato prestazioni zero-shot all’avanguardia su tutti i 13 set di dati mantenuti in sospeso. I ricercatori hanno inoltre sottolineato che il modello ha mostrato prestazioni all’avanguardia quando è stato perfezionato per singoli compiti successivi. Hanno anche progettato un Query Transformer che è consapevole delle istruzioni ed estrae elementi informativi specifici dell’istruzione particolare.

Hanno proposto l’idea di “estrazione delle caratteristiche visive consapevoli delle istruzioni”, che introduce un metodo che rende possibile estrarre caratteristiche flessibili e informative in base alle istruzioni date. Perché il Q-Former possa recuperare le caratteristiche visive consapevoli delle istruzioni dall’immagine codificata congelata, l’istruzione testuale viene inviata specificamente sia al LLM congelato che al Q-Former. Hanno anche utilizzato una tecnica di campionamento bilanciato per sincronizzare il progresso dell’apprendimento tra i set di dati.

I ricercatori avvertono gli utenti di essere consapevoli dei possibili bias e limiti a questo punto, nonostante l’utilità e l’efficacia del modello. Hanno aggiunto che, come qualsiasi altro sistema di intelligenza artificiale, le risposte devono essere valutate per accuratezza e adeguatezza utilizzando il giudizio umano. Le prestazioni del modello nelle attività giapponesi di visione e linguaggio devono essere migliorate attraverso una ricerca e uno sviluppo continuo.