Analisi della frequenza delle parole
Congratulazioni! Hai appena iniziato in PyBooks. PyBooks sta sviluppando un sistema di raccomandazione di libri e vuole scoprire pattern e tendenze nel testo per migliorare i suggerimenti.
Per cominciare, è utile capire la frequenza delle parole in un dato testo e rimuovere quelle rare.
Tieni presente che i tipici insiemi di dati reali saranno più grandi di questo esempio.
Questo esercizio fa parte del corso
Deep Learning per il testo con PyTorch
Istruzioni dell'esercizio
- Importa
get_tokenizerdatorchtexteFreqDistdalla librerianltk. - Inizializza il tokenizer per l'inglese e tokenizza il
textfornito. - Calcola la distribuzione di frequenza dei
tokense rimuovi le parole rare usando una list comprehension.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____
text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."
# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)
threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)