Conteo de palabras de charlas TED
ted es un dataframe que contiene las transcripciones de 500 charlas TED. Tu tarea es calcular una nueva característica, word_count, que contenga el número aproximado de palabras de cada charla. En consecuencia, también necesitas calcular el conteo medio de palabras de las charlas. Las transcripciones están disponibles como la característica transcript en ted.
Para completar esta tarea, tendrás que definir una función count_words que reciba una cadena como argumento y devuelva el número de palabras de esa cadena. Luego, tendrás que aplicar esta función a la característica transcript de ted para crear la nueva característica word_count y calcular su media.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Divide
stringen una lista de palabras usando el métodosplit(). - Devuelve el número de elementos en
wordsusandolen(). - Aplica tu función a la columna
transcriptdetedpara crear la nueva característicaword_count. - Calcula el conteo medio de palabras de las charlas usando
mean().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)