ComenzarEmpieza gratis

Limpiar tu texto

Los datos de texto no estructurado no se pueden usar directamente en la mayoría de análisis. Hay que dar varios pasos para pasar de una cadena larga en lenguaje natural a un conjunto de columnas numéricas con el formato adecuado para que las pueda ingerir un modelo de Machine Learning. El primer paso es estandarizar los datos y eliminar cualquier carácter que pueda causar problemas más adelante en tu flujo analítico.

En este capítulo trabajarás con un nuevo conjunto de datos que contiene los discursos inaugurales de los presidentes de Estados Unidos, cargado como speech_df, con los discursos en la columna text.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print the first 5 rows of the text column
print(____)
Editar y ejecutar código