Tekst pre-processen
Voor het bouwen van een aanbevelingssysteem, of welk model dan ook, moet je de tekst eerst pre-processen.
Hier is een tekstblok uit Sherlock Holmes geladen. Pre-process deze tekst met de technieken uit de video om hem voor te bereiden op verdere analyse.
De variabele text is een fragment uit The Hound of the Baskervilles van Arthur Conan Doyle.
De volgende pakketten en functies zijn alvast voor je geladen:
nltk, torch, get_tokenizer, PorterStemmer, stopwords.
Deze oefening maakt deel uit van de cursus
Deep Learning voor tekst met PyTorch
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize and tokenize the text
tokenizer = ____("basic_english")
tokens = ____(____)
print(tokens)