Contagem de palavras dos TED Talks
ted é um dataframe que contém as transcrições de 500 TED Talks. Sua tarefa é calcular um novo atributo word_count com o número aproximado de palavras de cada palestra. Consequentemente, você também precisa calcular a contagem média de palavras das palestras. As transcrições estão disponíveis como o atributo transcript em ted.
Para concluir esta tarefa, você precisará definir uma função count_words que recebe uma string como argumento e retorna o número de palavras nessa string. Em seguida, você deve aplicar essa função ao atributo transcript de ted para criar o novo atributo word_count e calcular sua média.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Divida
stringem uma lista de palavras usando o métodosplit(). - Retorne o número de elementos em
wordsusandolen(). - Aplique sua função à coluna
transcriptdetedpara criar o novo atributoword_count. - Calcule a contagem média de palavras das palestras usando
mean().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)