TED-talks opschonen in een dataframe

In deze oefening kijken we terug naar de TED Talks uit het eerste hoofdstuk. Je hebt een dataframe ted met 5 TED Talks. Je taak is om deze talks op te schonen met de technieken die eerder zijn besproken door een functie preprocess te schrijven en die toe te passen op de kolom transcript van het dataframe.

De stopwoordenlijst is beschikbaar als stopwords.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Genereer het Doc-object voor text. Negeer het argument disable voorlopig.
Genereer lemma’s met list comprehension via het attribuut lemma_.
Verwijder niet-alfabetische tekens met isalpha() in de if-voorwaarde.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Code bewerken en uitvoeren