Pulire i TED Talks in un dataframe
In questo esercizio torneremo ai TED Talks del primo capitolo. Ti è stato fornito un dataframe ted composto da 5 TED Talks. Il tuo compito è pulire questi talk usando le tecniche viste in precedenza, scrivendo una funzione preprocess e applicandola alla variabile transcript del dataframe.
L'elenco delle stopword è disponibile come stopwords.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Genera l'oggetto Doc per
text. Ignora per ora l'argomentodisable. - Genera i lemmi usando una list comprehension e l'attributo
lemma_. - Rimuovi i caratteri non alfabetici usando
isalpha()nella condizione if.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])