Perché LLaVa-1.5 è una grande vittoria per l’IA open-source

Perché LLaVa-1.5 rappresenta una grande vittoria per l'IA open-source

La guerra diventa multimodale

Foto di svklimkin su Unsplash

Ho parlato molte volte della guerra di intelligenza artificiale tra modelli open-source e privati, ma l’esito sembra essere sempre lo stesso.

I modelli open-source sembrano fantastici e pieni di promesse, ma spesso si riducono a semplici sogni irrealizzabili.

Ora, le cose potrebbero essere cambiate.

Fonte: Dall-e3

Microsoft, insieme alle Università del Wisconsin-Madison e Columbia, ha presentato la nuova versione del modello LLaVa, LLaVa-1.5.

LLaVa, uno dei primi modelli Large Multimodal Models (LMMs) veramente performanti, è stato aggiornato e i risultati sono davvero impressionanti, considerando che è centinaia di volte più piccolo rispetto a modelli come GPT-4 Vision, l’ultima release di OpenAI che sta facendo impazzire il mondo.

L’articolo appena pubblicato non solo ci fornisce grandi informazioni su come vengono sviluppati i modelli multimodali all’avanguardia, ma dimostra anche un’intera industria in errore.

Sì, tutti sbagliavano sulle risorse open-source, me compreso.

Questo articolo è stato originariamente pubblicato giorni fa nella mia newsletter settimanale gratuita, TheTechOasis.

Se vuoi essere sempre aggiornato sul frenetico mondo dell’intelligenza artificiale e al tempo stesso sentirsi ispirato ad agire o, almeno, essere preparato per il futuro che ci attende, allora questa è la tua scelta.

🏝Iscriviti qui sotto🏝 per diventare un leader nel campo dell’IA tra i tuoi colleghi e ricevere contenuti che non troverai altrove, inclusa VoAGI:

Iscriviti | TheTechOasis

La newsletter per essere sempre un passo avanti nell’IA

thetechoasis.beehiiv.com

Oh, mio dolce innesto!

Innanzitutto, dobbiamo chiarire cosa si intende per multimodalità, poiché questa parola viene spesso usata senza una reale comprensione.

Cosa si intende veramente per multimodalità