IniziaInizia gratis

Tokenizzazione di parole con NLTK

Qui userai la prima scena di Monty Python and the Holy Grail, già caricata come scene_one. Se vuoi, dagli un’occhiata nell’IPython Shell!

Il tuo compito in questo esercizio è utilizzare word_tokenize e sent_tokenize da nltk.tokenize per tokenizzare sia le parole sia le frasi a partire da stringhe Python — in questo caso, la prima scena di Monty Python and the Holy Grail.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa le funzioni sent_tokenize e word_tokenize da nltk.tokenize.
  • Tokenizza tutte le frasi in scene_one usando la funzione sent_tokenize().
  • Tokenizza la quarta frase in sentences, a cui puoi accedere come sentences[3], usando la funzione word_tokenize().
  • Trova i token unici dell’intera scena usando word_tokenize() su scene_one e poi convertendoli in un insieme con set().
  • Stampa i token unici trovati. Questo è già stato fatto per te, quindi fai clic su "Invia risposta" per vedere i risultati!

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Modifica ed esegui il codice