Recursos textuais de alto nível
Depois que o texto é limpo e padronizado, você pode começar a criar recursos a partir dos dados. A informação mais básica que você pode calcular sobre texto livre é seu tamanho, como o comprimento e o número de palavras. Neste exercício (e no restante deste capítulo), você vai se concentrar na coluna de texto limpo/transformado (text_clean) que você criou no exercício anterior.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Registre o comprimento em caracteres de cada discurso na coluna
char_count. - Registre a contagem de palavras de cada discurso na coluna
word_count. - Registre o comprimento médio das palavras de cada discurso na coluna
avg_word_length.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])