TfIdf sui dati di sentiment di Twitter per le compagnie aeree
Ora costruirai le feature usando il metodo TfIdf. Continuerai a lavorare con l’insieme di dati tweets.
In questo esercizio metterai in pratica quanto visto nelle lezioni precedenti: rimuovere le stop word, usare un pattern per i token e specificare gli n-gram.
L’output finale sarà un DataFrame, le cui colonne sono create usando TfidfVectorizer(). Un DataFrame di questo tipo può essere passato direttamente a un modello di apprendimento supervisionato, che affronteremo nel prossimo capitolo.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa il pacchetto necessario per costruire un TfidfVectorizer e
ENGLISH_STOP_WORDS. - Costruisci un vettorizzatore TfIdf a partire dalla colonna
textdell’insieme di datitweets, specificando uni- e bi-grammi come scelta di n-gram, token che includono solo caratteri alfanumerici usando il pattern di token fornito e le stop word corrispondenti aENGLISH_STOP_WORDS. - Trasforma il vettorizzatore, specificando la stessa colonna su cui hai effettuato il fit.
- Specifica i nomi delle colonne nella funzione
DataFrame().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())