ComeçarComece de graça

Limpando seu texto

Dados de texto não estruturados não podem ser usados diretamente na maioria das análises. É preciso seguir várias etapas para ir de uma longa string em linguagem natural a um conjunto de colunas numéricas, no formato certo para serem ingeridas por um modelo de Machine Learning. A primeira etapa desse processo é padronizar os dados e eliminar quaisquer caracteres que possam causar problemas mais adiante no seu pipeline analítico.

Neste capítulo, você vai trabalhar com um novo conjunto de dados contendo os discursos de posse dos presidentes dos Estados Unidos, carregado como speech_df, com os discursos armazenados na coluna text.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the first 5 rows of the text column
print(____)
Editar e executar o código