Pulire un post del blog
In questo esercizio ti viene fornito un estratto di un post del blog. Il tuo compito è ripulire il testo in un formato più adatto alle macchine. Dovrai convertire in minuscolo, applicare la lemmatizzazione e rimuovere stopword, punteggiatura e caratteri non alfabetici.
L’estratto è disponibile come stringa blog ed è già stato stampato in console. L’elenco delle stopword è disponibile come stopwords.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Usando una list comprehension, itera su
docper estrarre illemma_di ogni token. - Rimuovi le stopword e i token non alfabetici usando
stopwordseisalpha().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)
# Generate lemmatized tokens
lemmas = [token.____ for token in ____]
# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in ____]
# Print string after text cleaning
print(' '.join(a_lemmas))