IniziaInizia gratis

TfIdf sui dati di sentiment di Twitter per le compagnie aeree

Ora costruirai le feature usando il metodo TfIdf. Continuerai a lavorare con l’insieme di dati tweets.

In questo esercizio metterai in pratica quanto visto nelle lezioni precedenti: rimuovere le stop word, usare un pattern per i token e specificare gli n-gram.

L’output finale sarà un DataFrame, le cui colonne sono create usando TfidfVectorizer(). Un DataFrame di questo tipo può essere passato direttamente a un modello di apprendimento supervisionato, che affronteremo nel prossimo capitolo.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa il pacchetto necessario per costruire un TfidfVectorizer e ENGLISH_STOP_WORDS.
  • Costruisci un vettorizzatore TfIdf a partire dalla colonna text dell’insieme di dati tweets, specificando uni- e bi-grammi come scelta di n-gram, token che includono solo caratteri alfanumerici usando il pattern di token fornito e le stop word corrispondenti a ENGLISH_STOP_WORDS.
  • Trasforma il vettorizzatore, specificando la stessa colonna su cui hai effettuato il fit.
  • Specifica i nomi delle colonne nella funzione DataFrame().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())
Modifica ed esegui il codice