Woordenaantal van TED-talks
ted is een dataframe met de transcripties van 500 TED-talks. Jij gaat een nieuwe feature word_count berekenen met het geschatte aantal woorden per talk. Daarna bereken je ook het gemiddelde aantal woorden van de talks. De transcripties staan in de feature transcript in ted.
Om deze taak te voltooien, definieer je een functie count_words die een string als argument krijgt en het aantal woorden in die string teruggeeft. Pas deze functie vervolgens toe op de feature transcript van ted om de nieuwe feature word_count te maken en bereken daarna het gemiddelde.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Split
stringin een lijst met woorden met de methodesplit(). - Geef het aantal elementen in
wordsterug metlen(). - Pas je functie toe op de kolom
transcriptvantedom de nieuwe featureword_countte maken. - Bereken het gemiddelde woordenaantal van de talks met
mean().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)