Nettoyer un article de blog

Dans cet exercice, on vous fournit un extrait d’un article de blog. Votre objectif est de nettoyer ce texte pour le rendre plus adapté au traitement automatique. Il s’agira de convertir en minuscules, de lemmatiser et de supprimer les stop words, la ponctuation et les caractères non alphabétiques.

L’extrait est disponible sous forme de chaîne blog et a été affiché dans la console. La liste des stop words est disponible dans stopwords.

Cet exercice fait partie du cours

<cours>Feature Engineering pour le NLP en Python</cours>

Voir le cours

Instructions de l’exercice

À l’aide d’une compréhension de liste, itérez sur doc pour extraire le lemma_ de chaque token.
Supprimez les stop words et les tokens non alphabétiques en utilisant stopwords et isalpha().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(blog)

# Generate lemmatized tokens
lemmas = [token.____ for token in ____]

# Remove stopwords and non-alphabetic tokens
a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in ____]

# Print string after text cleaning
print(' '.join(a_lemmas))

Modifier et exécuter le code