Recursos textuais de alto nível

Depois que o texto é limpo e padronizado, você pode começar a criar recursos a partir dos dados. A informação mais básica que você pode calcular sobre texto livre é seu tamanho, como o comprimento e o número de palavras. Neste exercício (e no restante deste capítulo), você vai se concentrar na coluna de texto limpo/transformado (text_clean) que você criou no exercício anterior.

Este exercicio faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercicio

Registre o comprimento em caracteres de cada discurso na coluna char_count.
Registre a contagem de palavras de cada discurso na coluna word_count.
Registre o comprimento médio das palavras de cada discurso na coluna avg_word_length.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])

Editar e Executar Código