Più colonne di testo
In questo esercizio continuerai a lavorare con i dati di Twitter delle compagnie aeree. Un insieme di dati tweets è stato importato per te.
In alcune situazioni potresti avere più di una colonna di testo in un insieme di dati e voler creare una rappresentazione numerica per ciascuna colonna di testo. Qui, oltre alla colonna text, che contiene il corpo del tweet, c'è una seconda colonna di testo, chiamata negativereason. Contiene il motivo per cui il cliente ha lasciato una recensione negativa.
Il tuo compito è costruire rappresentazioni BOW per entrambe le colonne e specificare le stop words richieste.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Importa il pacchetto del vettorizzatore e l'elenco predefinito delle stop words in inglese.
- Aggiorna l'elenco predefinito delle stop words in inglese e crea l'insieme
my_stop_words. - Specifica l'argomento delle stop words nel primo vettorizzatore con l'insieme aggiornato e, nel secondo vettorizzatore, con l'insieme predefinito di stop words in inglese.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())