Incontra CipherChat un framework di intelligenza artificiale per esaminare sistematicamente la generalizzabilità dell’allineamento della sicurezza a lingue non naturali, specificamente cifrature.

Incontra CipherChat, un framework di intelligenza artificiale per esaminare la generalizzabilità dell'allineamento della sicurezza a lingue non naturali.

I sistemi di intelligenza artificiale (IA) hanno fatto progressi significativi grazie all’introduzione dei modelli linguistici di grandi dimensioni (LLM). I principali LLM come ChatGPT rilasciato da OpenAI, Bard di Google e Llama-2 hanno dimostrato le loro notevoli capacità nell’eseguire applicazioni innovative, che vanno dall’assistenza nell’utilizzo degli strumenti al potenziamento delle valutazioni umane alla simulazione dei comportamenti interattivi umani. La diffusa implementazione di questi LLM è resa possibile dalle loro straordinarie competenze, ma comporta una sfida significativa nell’assicurare la sicurezza e l’affidabilità delle loro risposte.

In relazione alle lingue non naturali, in particolare i cifrari, recenti ricerche condotte da un team hanno introdotto diversi importanti contributi che avanzano la comprensione e l’applicazione dei LLM. Queste innovazioni sono state proposte con l’obiettivo di migliorare l’affidabilità e la sicurezza delle interazioni dei LLM in questo specifico contesto linguistico.

Il team ha introdotto CipherChat, un framework creato appositamente per valutare l’applicabilità dei metodi di allineamento della sicurezza dal dominio delle lingue naturali a quello delle lingue non naturali. In CipherChat, gli esseri umani interagiscono con i LLM attraverso prompt basati su cifrari, assegnazioni dettagliate dei ruoli di sistema e dimostrazioni cifrate succinte. Questa architettura assicura che la comprensione dei cifrari da parte dei LLM, la partecipazione alla conversazione e la sensibilità ai contenuti inappropriati vengano esaminati in modo approfondito.

Questo studio sottolinea la necessità critica di creare metodi di allineamento della sicurezza quando si lavora con lingue non naturali, come i cifrari, al fine di abbinare con successo le capacità dei LLM sottostanti. Sebbene i LLM abbiano dimostrato una straordinaria abilità nel comprendere e produrre lingue umane, la ricerca afferma che dimostrano anche una sorprendente capacità di comprensione delle lingue non naturali. Questa informazione sottolinea l’importanza dello sviluppo di regolamenti di sicurezza che coprano queste forme di comunicazione non tradizionali e quelle che rientrano nel campo della linguistica tradizionale.

Sono stati effettuati numerosi esperimenti utilizzando una varietà di cifrari umani realistici su moderni LLM, come ChatGPT e GPT-4, per valutare le prestazioni di CipherChat. Queste valutazioni coprono 11 diversi argomenti di sicurezza e sono disponibili sia in cinese che in inglese. I risultati indicano un modello sorprendente, ovvero che determinati cifrari sono in grado di aggirare con successo le procedure di allineamento della sicurezza di GPT-4, con tassi di successo virtualmente del 100% in diversi ambiti di sicurezza. Questo risultato empirico sottolinea la necessità urgente di creare meccanismi personalizzati di allineamento della sicurezza per le lingue non naturali, come i cifrari, al fine di garantire la robustezza e l’affidabilità delle risposte dei LLM in diverse circostanze linguistiche.

Il team ha condiviso che la ricerca scopre il fenomeno della presenza di un cifrario segreto all’interno dei LLM. Tracciando paralleli con il concetto di lingue segrete osservato in altri modelli linguistici, il team ha ipotizzato che i LLM potrebbero possedere una latente capacità di decifrare determinati input codificati, suggerendo così l’esistenza di una capacità unica legata ai cifrari.

Basandosi su questa osservazione, è stato introdotto un framework unico ed efficace noto come SelfCipher, che si basa esclusivamente su scenari di gioco di ruolo e un numero limitato di dimostrazioni in linguaggio naturale per sfruttare e attivare la latente capacità segreta di decifrare i cifrari all’interno dei LLM. L’efficacia di SelfCipher dimostra il potenziale di sfruttare queste abilità nascoste per migliorare le prestazioni dei LLM nella decodifica degli input codificati e nella generazione di risposte significative.