IniziaInizia gratis

Feature testuali di alto livello

Una volta che il testo è stato pulito e standardizzato, puoi iniziare a creare feature dai dati. Le informazioni più basilari che puoi calcolare su un testo libero riguardano la sua dimensione, come la lunghezza e il numero di parole. In questo esercizio (e per il resto del capitolo), ti concentrerai sulla colonna di testo pulito/trasformato (text_clean) che hai creato nell’esercizio precedente.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Registra la lunghezza in caratteri di ciascun discorso nella colonna char_count.
  • Registra il numero di parole di ciascun discorso nella colonna word_count.
  • Registra la lunghezza media delle parole di ciascun discorso nella colonna avg_word_length.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Modifica ed esegui il codice