Creare un Counter con bag-of-words
In questo esercizio costruirai il tuo primo (in questo corso) contatore bag-of-words usando un articolo di Wikipedia, già caricato come article. Prova a creare il bag-of-words senza guardare l’intero testo dell’articolo e prova a indovinare l’argomento! Se vuoi sbirciare il titolo alla fine, lo trovi in article_title. Nota che il testo di questo articolo ha avuto pochissima pre-elaborazione rispetto alla voce grezza del database di Wikipedia.
word_tokenize è già stato importato per te.
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Istruzioni dell'esercizio
- Importa
Counterdacollections. - Usa
word_tokenize()per suddividere l’articolo in token. - Usa una list comprehension con
tcome variabile iteratore per convertire tutti i token in minuscolo. Il metodo.lower()converte il testo in minuscolo. - Crea un contatore bag-of-words chiamato
bow_simpleusandoCounter()conlower_tokenscome argomento. - Usa il metodo
.most_common()dibow_simpleper stampare i 10 token più comuni.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)