Hoogwaardige tekstkenmerken
Zodra de tekst is opgeschoond en gestandaardiseerd, kun je features uit de gegevens gaan maken. De meest basale informatie die je over vrije tekst kunt berekenen is de grootte, zoals de lengte en het aantal woorden. In deze oefening (en de rest van dit hoofdstuk) focus je op de opgeschoonde/getransformeerde tekstkolom (text_clean) die je in de vorige oefening hebt gemaakt.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Oefeninstructies
- Noteer de tekenlengte van elke speech in de kolom
char_count. - Noteer de woordentelling van elke speech in de kolom
word_count. - Noteer de gemiddelde woordlengte van elke speech in de kolom
avg_word_length.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])