TfIdf sui dati di sentiment di Twitter per le compagnie aeree

Ora costruirai le feature usando il metodo TfIdf. Continuerai a lavorare con l’insieme di dati tweets.

In questo esercizio metterai in pratica quanto visto nelle lezioni precedenti: rimuovere le stop word, usare un pattern per i token e specificare gli n-gram.

L’output finale sarà un DataFrame, le cui colonne sono create usando TfidfVectorizer(). Un DataFrame di questo tipo può essere passato direttamente a un modello di apprendimento supervisionato, che affronteremo nel prossimo capitolo.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa il pacchetto necessario per costruire un TfidfVectorizer e ENGLISH_STOP_WORDS.
Costruisci un vettorizzatore TfIdf a partire dalla colonna text dell’insieme di dati tweets, specificando uni- e bi-grammi come scelta di n-gram, token che includono solo caratteri alfanumerici usando il pattern di token fornito e le stop word corrispondenti a ENGLISH_STOP_WORDS.
Trasforma il vettorizzatore, specificando la stessa colonna su cui hai effettuato il fit.
Specifica i nomi delle colonne nella funzione DataFrame().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Modifica ed esegui il codice