Tokenizzazione di parole con NLTK

Qui userai la prima scena di Monty Python and the Holy Grail, già caricata come scene_one. Se vuoi, dagli un’occhiata nell’IPython Shell!

Il tuo compito in questo esercizio è utilizzare word_tokenize e sent_tokenize da nltk.tokenize per tokenizzare sia le parole sia le frasi a partire da stringhe Python — in questo caso, la prima scena di Monty Python and the Holy Grail.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Istruzioni dell'esercizio

Importa le funzioni sent_tokenize e word_tokenize da nltk.tokenize.
Tokenizza tutte le frasi in scene_one usando la funzione sent_tokenize().
Tokenizza la quarta frase in sentences, a cui puoi accedere come sentences[3], usando la funzione word_tokenize().
Trova i token unici dell’intera scena usando word_tokenize() su scene_one e poi convertendoli in un insieme con set().
Stampa i token unici trovati. Questo è già stato fatto per te, quindi fai clic su "Invia risposta" per vedere i risultati!

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)

Modifica ed esegui il codice