Oltre la penna l’arte dell’IA nella generazione di testo manoscritto da archetipi visivi

AI's art beyond the pen generating handwritten text from visual archetypes

Il campo emergente della Generazione di Testo Manoscritto Stilizzato (HTG) cerca di creare immagini di testo manoscritto che replicano lo stile calligrafico unico degli scrittori individuali. Questa area di ricerca ha diverse applicazioni pratiche, dalla generazione di dati di addestramento di alta qualità per modelli personalizzati di Riconoscimento di Testo Manoscritto (HTR) alla generazione automatica di note scritte a mano per persone con disabilità fisiche. Inoltre, le rappresentazioni di stile distinte acquisite da modelli progettati per questo scopo possono trovare utilità in altre attività come l’identificazione dello scrittore, la verifica della firma e la manipolazione degli stili di scrittura.

Quando si approfondisce la generazione di scrittura stilizzata, fare affidamento solo sul trasferimento di stile si rivela limitante. Ciò perché emulare la calligrafia di un determinato scrittore va oltre le considerazioni di mera texture, come il colore e la texture dello sfondo e dell’inchiostro. Comprende dettagli intricati come lo spessore del tratto, l’inclinazione, l’obliquità, la rotondità, le forme dei singoli caratteri e le legature. La gestione precisa di questi elementi visivi è fondamentale per evitare artefatti che potrebbero alterare involontariamente il contenuto, come l’introduzione di piccoli tratti extra o mancanti.

In risposta a ciò, sono state concepite metodologie specializzate per HTG. Un approccio prevede di trattare la scrittura a mano come una traiettoria composta da singoli tratti. In alternativa, può essere affrontata come un’immagine che cattura le sue caratteristiche visive.

Il primo insieme di tecniche impiega strategie HTG online, in cui la previsione della traiettoria della penna viene effettuata punto per punto. D’altra parte, il secondo insieme costituisce modelli HTG offline che generano direttamente immagini di testo complete. Il lavoro presentato in questo articolo si concentra sul paradigma HTG offline per le sue caratteristiche vantaggiose. A differenza dell’approccio online, non richiede costosi dati di addestramento della registrazione della penna. Di conseguenza, può essere applicato anche in scenari in cui le informazioni sulla scrittura a mano online di un autore non sono disponibili, come i dati storici. Inoltre, il paradigma offline è più facile da addestrare, in quanto evita problemi come i gradienti che svaniscono e consente la parallelizzazione.

L’architettura utilizzata in questo studio, nota come VATr (Visual Archetypes-based Transformer), introduce un approccio nuovo e innovativo alla Generazione di Testo Manoscritto Stilizzato (HTG) offline a poche riprese. Un’anteprima della tecnica proposta è presentata nella figura sottostante.

https://arxiv.org/abs/2303.15269

Questo approccio si distingue per la rappresentazione dei caratteri come variabili continue e per l’utilizzo di queste variabili come vettori di contenuto di interrogazione all’interno di un decodificatore Transformer per il processo di generazione. Il processo inizia con la rappresentazione dei caratteri. I caratteri vengono trasformati in variabili continue, che vengono quindi utilizzate come interrogazioni all’interno di un decodificatore Transformer. Questo decodificatore è un componente cruciale responsabile della generazione di immagini di testo stilizzate basate sul contenuto fornito.

Un vantaggio notevole di questa metodologia è la sua capacità di facilitare la generazione di caratteri che sono meno frequentemente incontrati nei dati di addestramento, come numeri, lettere maiuscole e segni di punteggiatura. Ciò viene ottenuto sfruttando la vicinanza nello spazio latente tra simboli rari e quelli più comuni.

L’architettura utilizza il carattere GNU Unifont per renderizzare i caratteri come immagini binarie 16×16, catturando efficacemente l’essenza visiva di ciascun carattere. Viene quindi appreso un encoding denso di queste immagini di caratteri e incorporato nel decodificatore Transformer come interrogazioni. Queste interrogazioni guidano l’attenzione del decodificatore ai vettori di stile, che vengono estratti da un encoder Transformer pre-addestrato.

Inoltre, l’approccio beneficia di una struttura di base pre-addestrata, che è stata inizialmente addestrata su un ampio dataset sintetico mirato a enfatizzare gli attributi di stile calligrafico. Sebbene questa tecnica venga spesso trascurata nel contesto di HTG, la sua efficacia è dimostrata nel produrre rappresentazioni di stile robuste, in particolare per stili che non sono mai stati visti prima.

L’architettura VATr viene convalidata attraverso ampie comparazioni sperimentali con metodi generativi di ultima generazione. Alcuni risultati e comparazioni con approcci di ultima generazione sono riportati qui di seguito.

https://arxiv.org/abs/2303.15269

Questo è stato il riassunto di VATr, un nuovo framework di intelligenza artificiale per la generazione di testo manoscritto da archetipi visivi. Se sei interessato e vuoi saperne di più, ti preghiamo di consultare i link citati di seguito.