IniziaInizia gratis

Conteggio parole dei TED talk

ted è un dataframe che contiene le trascrizioni di 500 TED talk. Il tuo compito è calcolare una nuova caratteristica word_count che contenga il numero approssimativo di parole per ogni talk. Di conseguenza, devi anche calcolare il numero medio di parole dei talk. Le trascrizioni sono disponibili come caratteristica transcript in ted.

Per completare questo task, dovrai definire una funzione count_words che prende in ingresso una stringa e restituisce il numero di parole nella stringa. Dovrai poi applicare questa funzione alla caratteristica transcript di ted per creare la nuova caratteristica word_count e calcolarne la media.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Suddividi string in un elenco di parole usando il metodo split().
  • Restituisci il numero di elementi in words usando len().
  • Applica la tua funzione alla colonna transcript di ted per creare la nuova caratteristica word_count.
  • Calcola il numero medio di parole dei talk usando mean().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Function that returns number of words in a string
def count_words(string):
	# Split the string into words
    words = ____.____
    
    # Return the number of words
    return ____(____)

# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)

# Print the average word count of the talks
print(ted[____].____)
Modifica ed esegui il codice