Limpando seu texto
Dados de texto não estruturados não podem ser usados diretamente na maioria das análises. É preciso seguir várias etapas para ir de uma longa string em linguagem natural a um conjunto de colunas numéricas, no formato certo para serem ingeridas por um modelo de Machine Learning. A primeira etapa desse processo é padronizar os dados e eliminar quaisquer caracteres que possam causar problemas mais adiante no seu pipeline analítico.
Neste capítulo, você vai trabalhar com um novo conjunto de dados contendo os discursos de posse dos presidentes dos Estados Unidos, carregado como speech_df, com os discursos armazenados na coluna text.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the first 5 rows of the text column
print(____)