ComenzarEmpieza gratis

Limpiar charlas TED en un dataframe

En este ejercicio, retomaremos las charlas TED del primer capítulo. Tienes un dataframe ted con 5 charlas TED. Tu tarea es limpiar estas charlas usando las técnicas vistas antes, escribiendo una función preprocess y aplicándola a la columna transcript del dataframe.

La lista de stopwords está disponible como stopwords.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

  • Genera el objeto Doc para text. Ignora el argumento disable por ahora.
  • Genera los lemas con una list comprehension usando el atributo lemma_.
  • Elimina los caracteres no alfabéticos usando isalpha() en la condición del if.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Function to preprocess text
def preprocess(text):
  	# Create Doc object
    doc = nlp(____, disable=['ner', 'parser'])
    # Generate lemmas
    lemmas = [token.____ for token in doc]
    # Remove stopwords and non-alphabetic characters
    a_lemmas = [lemma for lemma in lemmas 
            if lemma.____ and lemma not in stopwords]
    
    return ' '.join(a_lemmas)
  
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])
Editar y ejecutar código