Limpiar charlas TED en un dataframe
En este ejercicio, retomaremos las charlas TED del primer capítulo. Tienes un dataframe ted con 5 charlas TED. Tu tarea es limpiar estas charlas usando las técnicas vistas antes, escribiendo una función preprocess y aplicándola a la columna transcript del dataframe.
La lista de stopwords está disponible como stopwords.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Genera el objeto Doc para
text. Ignora el argumentodisablepor ahora. - Genera los lemas con una list comprehension usando el atributo
lemma_. - Elimina los caracteres no alfabéticos usando
isalpha()en la condición del if.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Function to preprocess text
def preprocess(text):
# Create Doc object
doc = nlp(____, disable=['ner', 'parser'])
# Generate lemmas
lemmas = [token.____ for token in doc]
# Remove stopwords and non-alphabetic characters
a_lemmas = [lemma for lemma in lemmas
if lemma.____ and lemma not in stopwords]
return ' '.join(a_lemmas)
# Apply preprocess to ted['transcript']
ted['transcript'] = ted['transcript'].apply(____)
print(ted['transcript'])