Woordenaantal van TED-talks

ted is een dataframe met de transcripties van 500 TED-talks. Jij gaat een nieuwe feature word_count berekenen met het geschatte aantal woorden per talk. Daarna bereken je ook het gemiddelde aantal woorden van de talks. De transcripties staan in de feature transcript in ted.

Om deze taak te voltooien, definieer je een functie count_words die een string als argument krijgt en het aantal woorden in die string teruggeeft. Pas deze functie vervolgens toe op de feature transcript van ted om de nieuwe feature word_count te maken en bereken daarna het gemiddelde.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Split string in een lijst met woorden met de methode split().
Geef het aantal elementen in words terug met len().
Pas je functie toe op de kolom transcript van ted om de nieuwe feature word_count te maken.
Bereken het gemiddelde woordenaantal van de talks met mean().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Function that returns number of words in a string
def count_words(string):
	# Split the string into words
    words = ____.____
    
    # Return the number of words
    return ____(____)

# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)

# Print the average word count of the talks
print(ted[____].____)

Code bewerken en uitvoeren