Nettoyer des TED Talks dans un dataframe

Dans cet exercice, nous revenons sur les TED Talks du premier chapitre. Un dataframe ted contenant 5 TED Talks vous est fourni. Votre objectif est de nettoyer ces talks en appliquant les techniques vues précédemment : écrivez une fonction preprocess et appliquez-la à la colonne transcript du dataframe.

La liste des stopwords est disponible sous stopwords.

Cet exercice fait partie du cours

<cours>Feature Engineering pour le NLP en Python</cours>

Voir le cours

Instructions de l’exercice

Générez l’objet Doc pour text. Ignorez pour l’instant l’argument disable.
Générez les lemmes à l’aide d’une compréhension de liste en utilisant l’attribut lemma_.
Supprimez les caractères non alphabétiques en utilisant isalpha() dans la condition if.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Modifier et exécuter le code