IniziaInizia gratis

Creare un Counter con bag-of-words

In questo esercizio costruirai il tuo primo (in questo corso) contatore bag-of-words usando un articolo di Wikipedia, già caricato come article. Prova a creare il bag-of-words senza guardare l’intero testo dell’articolo e prova a indovinare l’argomento! Se vuoi sbirciare il titolo alla fine, lo trovi in article_title. Nota che il testo di questo articolo ha avuto pochissima pre-elaborazione rispetto alla voce grezza del database di Wikipedia.

word_tokenize è già stato importato per te.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa Counter da collections.
  • Usa word_tokenize() per suddividere l’articolo in token.
  • Usa una list comprehension con t come variabile iteratore per convertire tutti i token in minuscolo. Il metodo .lower() converte il testo in minuscolo.
  • Crea un contatore bag-of-words chiamato bow_simple usando Counter() con lower_tokens come argomento.
  • Usa il metodo .most_common() di bow_simple per stampare i 10 token più comuni.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Modifica ed esegui il codice