Decodifica delle opportunità e delle sfide per gli agenti LLM nella generazione di AI

Opportunità e sfide per gli agenti LLM nell'AI

Stiamo assistendo a una progressione delle applicazioni di Intelligenza Artificiale Generativa alimentate da grandi modelli di linguaggio (LLM) da prompt a generazione potenziata tramite recupero (RAG) fino ad agenti. Gli agenti sono oggetto di discussioni intense nei circoli industriali e di ricerca, principalmente per il potere che questa tecnologia fornisce nel trasformare le applicazioni aziendali e offrire esperienze superiori ai clienti. Ci sono modelli comuni per la costruzione di agenti che consentono i primi passi verso l’intelligenza artificiale generale (AGI).

Nel mio articolo precedente, abbiamo visto una scala di intelligenza di modelli per la costruzione di applicazioni alimentate da LLM. Partendo dai prompt che catturano il dominio del problema e utilizzano la memoria interna del LLM per generare l’output. Con RAG, arricchiamo il prompt con conoscenze esterne ricercate da un database vettoriale per controllare gli output. Successivamente, concatenando le chiamate LLM, possiamo costruire flussi di lavoro per realizzare applicazioni complesse. Gli agenti portano tutto ciò a un livello successivo determinando automaticamente come formare queste catene LLM. Vediamo in dettaglio.

Agenti – Sotto il cofano

Un modello chiave con gli agenti è che utilizzano il potere di comprensione del linguaggio del LLM per pianificare come risolvere un determinato problema. Il LLM comprende il problema e ci fornisce una sequenza di passi per risolverlo. Tuttavia, non si ferma qui. Gli agenti non sono un semplice sistema di supporto che fornisce raccomandazioni per risolvere il problema e poi passa il testimone a voi per intraprendere i passaggi consigliati. Gli agenti sono dotati di strumenti per agire. Spaventoso, vero!?

Se facciamo una domanda di base a un agente come questa:

Umano: Con quale azienda ha iniziato l’inventore del telefono?

Ecco un esempio di passaggi di pensiero che un agente potrebbe compiere.

Agente (RAGIONAMENTO):

  • Pensiero: Devo cercare l’inventore del telefono.
  • Azione: Cerca [inventore del telefono]
  • Osservazione: Alexander Graham Bell
  • Pensiero: Devo cercare un’azienda fondata da Alexander Graham Bell
  • Azione: Cerca [azienda fondata da Alexander Graham Bell]
  • Osservazione: Alexander Graham Bell ha co-fondato la American Telephone and Telegraph Company (AT&T) nel 1885
  • Pensiero: Ho trovato la risposta. Tornerò.

Agente (RISPOSTA): Alexander Graham Bell ha co-fondato AT&T nel 1885

Puoi vedere che l’agente segue un metodo sistematico per suddividere il problema in sottoproblemi che possono essere risolti mediante azioni specifiche. Le azioni qui sono consigliate dal LLM e possiamo associarle a strumenti specifici per implementare queste azioni. Potremmo abilitare uno strumento di ricerca per l’agente in modo che, quando si rende conto che il LLM ha fornito la ricerca come azione, chiamerà questo strumento con i parametri forniti dal LLM. La ricerca qui viene effettuata su Internet, ma può essere anche reindirizzata per cercare una base di conoscenza interna come un database vettoriale. Il sistema diventa così autosufficiente e può capire come risolvere problemi complessi seguendo una serie di passaggi. Framework come LangChain e LLaMAIndex offrono un modo semplice per costruire questi agenti e connettersi a strumenti e API. Amazon ha recentemente lanciato il loro framework Bedrock Agents che fornisce un’interfaccia visuale per la progettazione degli agenti.

Sotto il cofano, gli agenti seguono uno stile speciale di invio di prompt al LLM che li fa generare un piano d’azione. Il modello di pensiero-azione-osservazione sopra descritto è popolare in un tipo di agente chiamato ReAct (Ragionamento e Azione). Altri tipi di agenti includono MRKL e Plan & Execute, che differiscono principalmente nel loro stile di sollecitazione.

Per agenti più complessi, le azioni possono essere legate a strumenti che causano modifiche nei sistemi di origine. Ad esempio, potremmo collegare l’agente a uno strumento che controlla il saldo delle ferie e richiede un permesso in un sistema ERP per un dipendente. Ora potremmo costruire un bel chatbot che interagirebbe con gli utenti e tramite un comando di chat richiederebbe un permesso nel sistema. Niente più schermate complesse per richiedere un permesso, solo un’interfaccia di chat unificata. Sembra entusiasmante!?

Avvertenze e necessità di un’IA responsabile

Immaginiamo di avere uno strumento che invoca transazioni di trading di azioni utilizzando un’API autorizzata in precedenza. Costruiamo un’applicazione in cui l’agente studia le variazioni delle azioni (utilizzando strumenti) e prende decisioni per voi sull’acquisto e la vendita di azioni. Cosa succede se l’agente vende l’azione sbagliata perché ha avuto un’allucinazione e ha preso una decisione errata? Poiché i LLM sono modelli enormi, è difficile individuare il motivo per cui prendono alcune decisioni, quindi le allucinazioni sono comuni in assenza di adeguate protezioni.

Mentre gli agenti sono tutti affascinanti, probabilmente avrai intuito quanto possano essere pericolosi. Se hanno allucinazioni e compiono azioni errate, ciò potrebbe causare enormi perdite finanziarie o gravi problemi nei sistemi aziendali. Pertanto, l’AI Responsabile sta diventando di massima importanza nell’era delle applicazioni alimentate da LLM. I principi dell’AI Responsabile, quali riproducibilità, trasparenza e responsabilità, cercano di porre dei limiti alle decisioni prese dagli agenti e suggeriscono un’analisi del rischio per decidere quali azioni richiedono un intervento umano. Man mano che vengono progettati agenti sempre più complessi, è necessaria una maggiore attenzione, trasparenza e responsabilità per assicurarci di sapere cosa stanno facendo.

Considerazioni finali

La capacità degli agenti di generare un percorso di passi logici con azioni li avvicina molto al ragionamento umano. Dotarli di strumenti più potenti può conferirgli superpoteri. Modelli come ReAct cercano di emulare come gli esseri umani risolvono il problema e vedremo modelli di agenti migliori che saranno rilevanti per contesti e settori specifici (banche, assicurazioni, sanità, industriale, ecc.). Il futuro è qui e la tecnologia dietro gli agenti è pronta per essere utilizzata. Allo stesso tempo, dobbiamo prestare molta attenzione ai limiti dell’AI Responsabile per assicurarci di non stiamo costruendo Skynet!