Características de texto de alto nivel
Una vez que el texto se ha limpiado y estandarizado, puedes empezar a crear características a partir de los datos. La información más básica que puedes calcular sobre texto libre es su tamaño, como su longitud y el número de palabras. En este ejercicio (y en el resto de este capítulo), te centrarás en la columna de texto limpio/transformado (text_clean) que creaste en el ejercicio anterior.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Registra la longitud en caracteres de cada discurso en la columna
char_count. - Registra el recuento de palabras de cada discurso en la columna
word_count. - Registra la longitud media de palabra de cada discurso en la columna
avg_word_length.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])