Limpiar tu texto
Los datos de texto no estructurado no se pueden usar directamente en la mayoría de análisis. Hay que dar varios pasos para pasar de una cadena larga en lenguaje natural a un conjunto de columnas numéricas con el formato adecuado para que las pueda ingerir un modelo de Machine Learning. El primer paso es estandarizar los datos y eliminar cualquier carácter que pueda causar problemas más adelante en tu flujo analítico.
En este capítulo trabajarás con un nuevo conjunto de datos que contiene los discursos inaugurales de los presidentes de Estados Unidos, cargado como speech_df, con los discursos en la columna text.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Print the first 5 rows of the text column
print(____)