Contare le parole (I)
Una volta raccolte le informazioni di alto livello, puoi iniziare a creare feature basate sul contenuto effettivo di ogni testo. Un modo per farlo è adottare un approccio simile a quello usato con le variabili categoriche nelle lezioni precedenti.
- Per ogni parola unica nel dataset viene creata una colonna.
- Per ogni record, si conta quante volte compare questa parola e il valore del conteggio viene inserito nella rispettiva colonna.
Queste colonne di "conteggio" possono poi essere usate per addestrare modelli di Machine Learning.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Importa
CountVectorizerdasklearn.feature_extraction.text. - Istanzia
CountVectorizere assegnalo acv. - Esegui il fit del vectorizer sulla colonna
text_clean. - Stampa i nomi delle feature generati dal vectorizer.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)