ComenzarEmpieza gratis

Conteo de palabras de charlas TED

ted es un dataframe que contiene las transcripciones de 500 charlas TED. Tu tarea es calcular una nueva característica, word_count, que contenga el número aproximado de palabras de cada charla. En consecuencia, también necesitas calcular el conteo medio de palabras de las charlas. Las transcripciones están disponibles como la característica transcript en ted.

Para completar esta tarea, tendrás que definir una función count_words que reciba una cadena como argumento y devuelva el número de palabras de esa cadena. Luego, tendrás que aplicar esta función a la característica transcript de ted para crear la nueva característica word_count y calcular su media.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

  • Divide string en una lista de palabras usando el método split().
  • Devuelve el número de elementos en words usando len().
  • Aplica tu función a la columna transcript de ted para crear la nueva característica word_count.
  • Calcula el conteo medio de palabras de las charlas usando mean().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Function that returns number of words in a string
def count_words(string):
	# Split the string into words
    words = ____.____
    
    # Return the number of words
    return ____(____)

# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)

# Print the average word count of the talks
print(ted[____].____)
Editar y ejecutar código