Nettoyer des TED Talks dans un dataframe
Dans cet exercice, nous revenons sur les TED Talks du premier chapitre. Un dataframe ted contenant 5 TED Talks vous est fourni. Votre objectif est de nettoyer ces talks en appliquant les techniques vues précédemment : écrivez une fonction preprocess et appliquez-la à la colonne transcript du dataframe.
La liste des stopwords est disponible sous stopwords.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Générez l’objet Doc pour
text. Ignorez pour l’instant l’argumentdisable. - Générez les lemmes à l’aide d’une compréhension de liste en utilisant l’attribut
lemma_. - Supprimez les caractères non alphabétiques en utilisant
isalpha()dans la condition if.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])