Tokenizzazione di parole con NLTK
Qui userai la prima scena di Monty Python and the Holy Grail, già caricata come scene_one. Se vuoi, dagli un’occhiata nell’IPython Shell!
Il tuo compito in questo esercizio è utilizzare word_tokenize e sent_tokenize da nltk.tokenize per tokenizzare sia le parole sia le frasi a partire da stringhe Python — in questo caso, la prima scena di Monty Python and the Holy Grail.
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Istruzioni dell'esercizio
- Importa le funzioni
sent_tokenizeeword_tokenizedanltk.tokenize. - Tokenizza tutte le frasi in
scene_oneusando la funzionesent_tokenize(). - Tokenizza la quarta frase in
sentences, a cui puoi accedere comesentences[3], usando la funzioneword_tokenize(). - Trova i token unici dell’intera scena usando
word_tokenize()suscene_onee poi convertendoli in un insieme conset(). - Stampa i token unici trovati. Questo è già stato fatto per te, quindi fai clic su "Invia risposta" per vedere i risultati!
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)