Moderazione dei contenuti alla classificazione Zero Shot

Moderazione Zero Shot dei contenuti

Cosa succederebbe se volessimo analizzare un piccolo pezzo di testo senza informazioni o contesto aggiuntivo e riuscire a ottenere l’etichetta più ragionevole che vogliamo definire per i nostri dati? Questo può alimentare i motori di politiche più deterministici e i motori di regole, e può persino essere parte di un’analisi più ampia basata sul contesto come richiesto. OpenAI fornisce un modo per “moderare il contenuto” con classificazioni predefinite che possono determinare se il tuo testo appartiene a una o più delle categorie più abiette. Tuttavia, questa analisi riguarda principalmente come possiamo essere più personalizzati nel definire le nostre etichette rispetto a una determinata frase o espressione.

Esamineremo 4 categorie: ovvero politica, PHI/PII, questioni legali e performance aziendale. Dato che non abbiamo la possibilità di ottenere punteggi di probabilità da Open AI su queste etichette personalizzate (in questo momento), proveremo la strada dell’ingegneria delle promesse più orientata all’utente nell’Opzione 1, mentre l’Opzione 2 valuta altri modelli pre-addestrati di Hugging Face per lo stesso scopo.

Andremo anche con alcune frasi di esempio che sono state volutamente distorte per allinearsi a più di una categoria. Ad esempio, il nostro file di input CSV ha le seguenti righe come “payload”:

  1. La questione tra i ministri ha preso una piega personale.
  2. Ho cercato di negoziare la privacy dei dati con il mio gatto ma lui mi ha semplicemente ignorato e ha hackerato la mia tastiera per fare un pisolino.
  3. L’audizione al senato riguardava se un farmaco in fase di sperimentazione potesse essere utilizzato solo per questo paziente. Ha una condizione specifica del suo sangue che non ha ancora una cura.
  4. Ciò che è iniziato come un dibattito politico si è trasformato in una discussione sulle priorità aziendali per il 2023 e oltre, in termini di chi ha una storia migliore con gli iperscalers.
  5. La decisione storica della corte sulla libertà di parola ha suscitato discussioni sul sottile confine tra espressione e contenuto dannoso nelle piattaforme online, intrecciando considerazioni legali con dibattiti sulla governance online.
  6. Ho raccontato una barzelletta politica al mio medico durante il mio controllo PHI e ora la mia cartella clinica recita: Senso dell’umorismo del paziente: pericolosamente bipartisan.
  7. L’accesso gestito dall’utente ti dà il cosiddetto vantaggio di controllare la tua identità; ma quante persone esaminano attentamente le autorizzazioni dell’app sul tuo telefono che sfruttano nome, email e numeri di telefono?

Opzione 1: Ingegneria delle promesse con OpenAI

GPT-4 sembra essere leggermente migliore del cugino turbo 3.5 con queste frasi distorte. Il frame dei dati di output apparirà così. La maggior parte delle volte ottiene la probabilità maggiore correttamente, tranne per le frasi come la n. 3, dove ci saremmo aspettati che alcuni “%” fossero associati a PHI/PII. Questo fa anche il caso per richiedere a OpenAI di fornire una comodità di personalizzazione per etichettare le nostre etichette e sfruttare la capacità più rapida e più “ben letta” di tali modelli.

Opzione 2: Classificazione Zero Shot con modelli di Hugging Face

Procedendo, proviamo la stessa cosa con modelli pre-addestrati di Hugging Face – in alcuni modi specificamente progettati per questo compito.

Nota: il valore multi_label è impostato su True. Puoi provare anche a impostarlo su False.

Utilizziamo anche la nostra competenza umana per rivedere questo output (ultima colonna). Possiamo utilizzare un semplice indice come segue:

  • Ragionevole – Rappresenta il motore che seleziona accuratamente le etichette multiple
  • Parzialmente accurato – Una delle 2 etichette è accurata
  • Inaccurato – Ovviamente non è buono come gli altri

Il dataset è troppo piccolo per ottenere un risultato concreto, ma sembrano tutti essere in uno spazio relativamente comparabile per questo compito.

Riepilogo

I grandi modelli di linguaggio sono come taglie uniche per molti scopi. Per scenari in cui abbiamo pochissimo contesto su cui fare affidamento e sono necessarie etichette personalizzate per la classificazione zero-shot, abbiamo ancora l’opzione di optare per alternative addestrate sui modelli NLI (inferenza di linguaggio naturale) più specifici come quelli sopra citati. La scelta finale per una determinata esigenza potrebbe basarsi sulle prestazioni (quando usate in transazioni in tempo reale), sull’estensione del contesto aggiuntivo che può rendere questa scelta più deterministica e sulla facilità di integrazione per un determinato ecosistema.

Nota: Un ringraziamento speciale a coloro nei forum che hanno corretto il mio codice o condiviso suggerimenti su come utilizzare meglio questi modelli. In particolare, il forum di Open AI ha avuto qualcuno che ha condiviso questa intuizione su come interrogare GPT per ottenere risultati altrimenti non disponibili tramite chiamate API.