ComenzarEmpieza gratis

Características de texto de alto nivel

Una vez que el texto se ha limpiado y estandarizado, puedes empezar a crear características a partir de los datos. La información más básica que puedes calcular sobre texto libre es su tamaño, como su longitud y el número de palabras. En este ejercicio (y en el resto de este capítulo), te centrarás en la columna de texto limpio/transformado (text_clean) que creaste en el ejercicio anterior.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Registra la longitud en caracteres de cada discurso en la columna char_count.
  • Registra el recuento de palabras de cada discurso en la columna word_count.
  • Registra la longitud media de palabra de cada discurso en la columna avg_word_length.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Editar y ejecutar código