Feature testuali di alto livello
Una volta che il testo è stato pulito e standardizzato, puoi iniziare a creare feature dai dati. Le informazioni più basilari che puoi calcolare su un testo libero riguardano la sua dimensione, come la lunghezza e il numero di parole. In questo esercizio (e per il resto del capitolo), ti concentrerai sulla colonna di testo pulito/trasformato (text_clean) che hai creato nell’esercizio precedente.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Registra la lunghezza in caratteri di ciascun discorso nella colonna
char_count. - Registra il numero di parole di ciascun discorso nella colonna
word_count. - Registra la lunghezza media delle parole di ciascun discorso nella colonna
avg_word_length.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])