Più colonne di testo

In questo esercizio continuerai a lavorare con i dati di Twitter delle compagnie aeree. Un insieme di dati tweets è stato importato per te.

In alcune situazioni potresti avere più di una colonna di testo in un insieme di dati e voler creare una rappresentazione numerica per ciascuna colonna di testo. Qui, oltre alla colonna text, che contiene il corpo del tweet, c'è una seconda colonna di testo, chiamata negativereason. Contiene il motivo per cui il cliente ha lasciato una recensione negativa.

Il tuo compito è costruire rappresentazioni BOW per entrambe le colonne e specificare le stop words richieste.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa il pacchetto del vettorizzatore e l'elenco predefinito delle stop words in inglese.
Aggiorna l'elenco predefinito delle stop words in inglese e crea l'insieme my_stop_words.
Specifica l'argomento delle stop words nel primo vettorizzatore con l'insieme aggiornato e, nel secondo vettorizzatore, con l'insieme predefinito di stop words in inglese.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())

Modifica ed esegui il codice