Ricercatori dell’Università di Zurigo sviluppano SwissBERT un modello linguistico multilingue per le quattro lingue nazionali della Svizzera.

Researchers at the University of Zurich develop SwissBERT, a multilingual language model for Switzerland's four national languages.

Il famoso modello BERT è stato recentemente uno dei principali modelli di linguaggio per l’elaborazione del linguaggio naturale. Il modello di linguaggio è adatto per una serie di compiti di NLP, quelli che trasformano la sequenza di input in una sequenza di output. BERT (Bidirectional Encoder Representations from Transformers) utilizza un meccanismo di attenzione del Transformer. Un meccanismo di attenzione apprende le relazioni contestuali tra le parole o le sotto-parole in un corpus testuale. Il modello di linguaggio BERT è uno degli esempi più importanti di avanzamenti nel campo dell’NLP e utilizza tecniche di apprendimento auto-supervisionato.

Prima di sviluppare il modello BERT, un modello di linguaggio analizzava la sequenza di testo durante l’addestramento da sinistra a destra o combinando da sinistra a destra e da destra a sinistra. Questo approccio unidirezionale funzionava bene per generare frasi prevedendo la parola successiva, allegandola alla sequenza, seguita dalla previsione della parola successiva fino a ottenere una frase completa significativa. Con BERT è stata introdotta la formazione bidirezionale, che ha dato un senso più profondo al contesto e al flusso del linguaggio rispetto ai modelli di linguaggio precedenti.

Il modello BERT originale è stato rilasciato per la lingua inglese. Successivamente, sono stati sviluppati altri modelli di linguaggio come CamemBERT per il francese e GilBERTo per l’italiano. Di recente, un team di ricercatori dell’Università di Zurigo ha sviluppato un modello di linguaggio multilingue per la Svizzera. Chiamato SwissBERT, questo modello è stato addestrato su oltre 21 milioni di articoli di notizie svizzere in tedesco standard svizzero, francese, italiano e romancio grigionese con un totale di 12 miliardi di token.

SwissBERT è stato introdotto per superare le sfide che i ricercatori in Svizzera affrontano a causa dell’incapacità di svolgere compiti multilingue. La Svizzera ha principalmente quattro lingue ufficiali: tedesco, francese, italiano e romancio, ed è difficile combinare modelli di linguaggio individuali per ciascuna lingua specifica per svolgere compiti multilingue. Inoltre, non esiste un modello di linguaggio neurale separato per la quarta lingua nazionale, il romancio. Poiché l’implementazione di compiti multilingue è piuttosto difficile nel campo dell’NLP, non c’era un modello unificato per la lingua nazionale svizzera prima di SwissBERT. SwissBERT supera questa sfida semplicemente combinando articoli in queste lingue e creando rappresentazioni multilingue sfruttando implicitamente entità comuni ed eventi nelle notizie.

Il modello SwissBERT è stato rielaborato da un trasformatore cross-linguistico modulare (X-MOD) preaddestrato insieme in 81 lingue. I ricercatori hanno adattato un trasformatore X-MOD preaddestrato al loro corpus addestrando adattatori di linguaggio personalizzati. Hanno creato un vocabolario di sottoparole specifico della Svizzera per SwissBERT, con il modello risultante composto da ben 153 milioni di parametri.

Il team ha valutato le prestazioni di SwissBERT su compiti, tra cui il riconoscimento delle entità denominate su notizie contemporanee (SwissNER) e il rilevamento delle posizioni nei commenti generati dagli utenti sulla politica svizzera. SwissBERT supera i baselines comuni e migliora rispetto a XLM-R nel rilevamento delle posizioni. Valutando le capacità del modello su romancio, si è scoperto che SwissBERT supera nettamente i modelli che non sono stati addestrati nella lingua in termini di trasferimento zero-shot cross-lingual e allineamento tedesco-romancio di parole e frasi. Tuttavia, il modello non si è comportato molto bene nel riconoscimento delle entità denominate in notizie storiche processate tramite OCR.

I ricercatori hanno rilasciato SwissBERT con esempi per il raffinamento di compiti successivi. Questo modello sembra promettente per la ricerca futura e persino per scopi non commerciali. Con ulteriori adattamenti, i compiti successivi possono trarre vantaggio dalla multilinguismo del modello.