Pulire un post del blog

In questo esercizio ti viene fornito un estratto di un post del blog. Il tuo compito è ripulire il testo in un formato più adatto alle macchine. Dovrai convertire in minuscolo, applicare la lemmatizzazione e rimuovere stopword, punteggiatura e caratteri non alfabetici.

L’estratto è disponibile come stringa blog ed è già stato stampato in console. L’elenco delle stopword è disponibile come stopwords.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Usando una list comprehension, itera su doc per estrarre il lemma_ di ogni token.
Rimuovi le stopword e i token non alfabetici usando stopwords e isalpha().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Modifica ed esegui il codice