Pulire i TED Talks in un dataframe

In questo esercizio torneremo ai TED Talks del primo capitolo. Ti è stato fornito un dataframe ted composto da 5 TED Talks. Il tuo compito è pulire questi talk usando le tecniche viste in precedenza, scrivendo una funzione preprocess e applicandola alla variabile transcript del dataframe.

L'elenco delle stopword è disponibile come stopwords.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Genera l'oggetto Doc per text. Ignora per ora l'argomento disable.
Genera i lemmi usando una list comprehension e l'attributo lemma_.
Rimuovi i caratteri non alfabetici usando isalpha() nella condizione if.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Modifica ed esegui il codice