Aan de slagGa gratis aan de slag

Woordanalyse op frequentie

Gefeliciteerd! Je bent net begonnen bij PyBooks. PyBooks ontwikkelt een boekaanbevelingssysteem en wil patronen en trends in tekst vinden om hun aanbevelingen te verbeteren.

Om te beginnen wil je de frequentie van woorden in een gegeven tekst begrijpen en zeldzame woorden verwijderen.

Houd er rekening mee dat typische datasets uit de praktijk groter zijn dan dit voorbeeld.

Deze oefening maakt deel uit van de cursus

Deep Learning voor tekst met PyTorch

Cursus bekijken

Oefeninstructies

  • Importeer get_tokenizer uit torchtext en FreqDist uit de nltk-bibliotheek.
  • Initialiseer de tokenizer voor Engels en tokeniseer de gegeven text.
  • Bereken de frequentieverdeling van de tokens en verwijder zeldzame woorden met list comprehension.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the necessary functions
from torchtext.data.utils import ____
from nltk.probability import ____

text = "In the city of Dataville, a data analyst named Alex explores hidden insights within vast data. With determination, Alex uncovers patterns, cleanses the data, and unlocks innovation. Join this adventure to unleash the power of data-driven decisions."

# Initialize the tokenizer and tokenize the text
tokenizer = ____("basic_english")
tokens = tokenizer(____)

threshold = 1
# Remove rare words and print common tokens
freq_dist = ____(____)
common_tokens = [token for token in tokens if ____[token] > ____]
print(common_tokens)
Code bewerken en uitvoeren