Conteggio parole dei TED talk
ted è un dataframe che contiene le trascrizioni di 500 TED talk. Il tuo compito è calcolare una nuova caratteristica word_count che contenga il numero approssimativo di parole per ogni talk. Di conseguenza, devi anche calcolare il numero medio di parole dei talk. Le trascrizioni sono disponibili come caratteristica transcript in ted.
Per completare questo task, dovrai definire una funzione count_words che prende in ingresso una stringa e restituisce il numero di parole nella stringa. Dovrai poi applicare questa funzione alla caratteristica transcript di ted per creare la nuova caratteristica word_count e calcolarne la media.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Suddividi
stringin un elenco di parole usando il metodosplit(). - Restituisci il numero di elementi in
wordsusandolen(). - Applica la tua funzione alla colonna
transcriptditedper creare la nuova caratteristicaword_count. - Calcola il numero medio di parole dei talk usando
mean().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)