L’inizio dell’estrazione delle informazioni evidenziare le parole chiave e ottenere le frequenze

Estrazione informazioni parole chiave e frequenze

Un approccio veloce per evidenziare parole chiave di interesse all’interno di un documento PDF e calcolarne le frequenze.

Foto di Judy Velazquez su Unsplash

Introduzione

Con l’aumento delle informazioni disponibili ogni giorno, avere la capacità di raccogliere rapidamente statistiche rilevanti su tali informazioni è importante per la mappatura delle relazioni e per ottenere una nuova prospettiva su dati altrimenti ridondanti. Oggi esamineremo l’estrazione di testo, nota anche come estrazione di informazioni, dai PDF e un approccio rapido per formulare alcuni fatti e idee su diversi corpus. L’articolo di oggi si addentra nel campo dell’Elaborazione del Linguaggio Naturale (NLP), che è la capacità di un computer di comprendere il linguaggio umano.

Estrazione delle informazioni

L’estrazione delle informazioni (IE), come definito da Jurafsky et al, è il “processo per trasformare informazioni non strutturate incorporate nei testi in dati strutturati” [1]. Un modo molto rapido per l’estrazione delle informazioni non è solo cercare se una parola si trova all’interno di un corpo di testo, ma anche calcolare la frequenza con cui quella parola viene menzionata. Questo è supportato dall’assunzione che più una parola viene menzionata all’interno di un corpo di testo, più importante è e più è correlata al tema del corpus. È importante notare che la rimozione delle stopwords è importante per questo processo. Perché? Beh, se semplicemente calcolassi tutte le frequenze delle parole all’interno di un corpus, la parola “il” verrebbe menzionata molto. Questo rende questa parola importante per trasmettere le informazioni contenute nel testo? No, e quindi è importante assicurarsi di osservare le frequenze delle parole che contribuiscono al significato semantico dei tuoi corpus.

IE può portare all’uso di altre tecniche di NLP su un documento. Queste tecniche vanno oltre il codice di questo articolo, ma ho ritenuto che fossero interessanti e importanti da condividere.

La prima tecnica è il Recognizione di Entità Nominate (NER). Come dettagliato da Jurafsky et al. “Il compito del riconoscimento delle entità nominate (NER) è trovare ogni menzione di un’entità nominata nel testo e etichettarne il tipo” [1]. Questo è simile all’idea di cercare…