ComeçarComece de graça

Contagem de palavras dos TED Talks

ted é um dataframe que contém as transcrições de 500 TED Talks. Sua tarefa é calcular um novo atributo word_count com o número aproximado de palavras de cada palestra. Consequentemente, você também precisa calcular a contagem média de palavras das palestras. As transcrições estão disponíveis como o atributo transcript em ted.

Para concluir esta tarefa, você precisará definir uma função count_words que recebe uma string como argumento e retorna o número de palavras nessa string. Em seguida, você deve aplicar essa função ao atributo transcript de ted para criar o novo atributo word_count e calcular sua média.

Este exercício faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercício

  • Divida string em uma lista de palavras usando o método split().
  • Retorne o número de elementos em words usando len().
  • Aplique sua função à coluna transcript de ted para criar o novo atributo word_count.
  • Calcule a contagem média de palavras das palestras usando mean().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Function that returns number of words in a string
def count_words(string):
	# Split the string into words
    words = ____.____
    
    # Return the number of words
    return ____(____)

# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)

# Print the average word count of the talks
print(ted[____].____)
Editar e executar o código