TED-talks opschonen in een dataframe
In deze oefening kijken we terug naar de TED Talks uit het eerste hoofdstuk. Je hebt een dataframe ted met 5 TED Talks. Je taak is om deze talks op te schonen met de technieken die eerder zijn besproken door een functie preprocess te schrijven en die toe te passen op de kolom transcript van het dataframe.
De stopwoordenlijst is beschikbaar als stopwords.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Genereer het Doc-object voor
text. Negeer het argumentdisablevoorlopig. - Genereer lemma’s met list comprehension via het attribuut
lemma_. - Verwijder niet-alfabetische tekens met
isalpha()in de if-voorwaarde.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])