Limpiar charlas TED en un dataframe

En este ejercicio, retomaremos las charlas TED del primer capítulo. Tienes un dataframe ted con 5 charlas TED. Tu tarea es limpiar estas charlas usando las técnicas vistas antes, escribiendo una función preprocess y aplicándola a la columna transcript del dataframe.

La lista de stopwords está disponible como stopwords.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Genera el objeto Doc para text. Ignora el argumento disable por ahora.
Genera los lemas con una list comprehension usando el atributo lemma_.
Elimina los caracteres no alfabéticos usando isalpha() en la condición del if.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])

Editar y ejecutar código