IniziaInizia gratis

Analisi della frequenza delle parole

Congratulazioni! Hai appena iniziato in PyBooks. PyBooks sta sviluppando un sistema di raccomandazione di libri e vuole scoprire pattern e tendenze nel testo per migliorare i suggerimenti.

Per cominciare, è utile capire la frequenza delle parole in un dato testo e rimuovere quelle rare.

Tieni presente che i tipici insiemi di dati reali saranno più grandi di questo esempio.

Questo esercizio fa parte del corso

Deep Learning per il testo con PyTorch

Visualizza il corso

Istruzioni dell'esercizio

  • Importa get_tokenizer da torchtext e FreqDist dalla libreria nltk.
  • Inizializza il tokenizer per l'inglese e tokenizza il text fornito.
  • Calcola la distribuzione di frequenza dei tokens e rimuovi le parole rare usando una list comprehension.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)
Modifica ed esegui il codice