IniziaInizia gratis

Contare le parole (I)

Una volta raccolte le informazioni di alto livello, puoi iniziare a creare feature basate sul contenuto effettivo di ogni testo. Un modo per farlo è adottare un approccio simile a quello usato con le variabili categoriche nelle lezioni precedenti.

  • Per ogni parola unica nel dataset viene creata una colonna.
  • Per ogni record, si conta quante volte compare questa parola e il valore del conteggio viene inserito nella rispettiva colonna.

Queste colonne di "conteggio" possono poi essere usate per addestrare modelli di Machine Learning.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa CountVectorizer da sklearn.feature_extraction.text.
  • Istanzia CountVectorizer e assegnalo a cv.
  • Esegui il fit del vectorizer sulla colonna text_clean.
  • Stampa i nomi delle feature generati dal vectorizer.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Modifica ed esegui il codice