Sentiment sulle compagnie aeree con stop words

Ti viene fornito un insieme di dati, chiamato tweets, che contiene recensioni e sentiment dei clienti sulle compagnie aeree. È composto da due colonne: airline_sentiment e text dove il sentiment può essere positivo, negativo o neutro, e text è il testo del tweet.

In questo esercizio creerai una rappresentazione BOW tenendo però conto delle stop words. Ricorda che le stop words non sono informative e potresti volerle rimuovere. In questo modo otterrai un vocabolario più piccolo e, di conseguenza, meno feature. Tieni presente che possiamo arricchire una lista predefinita di stop words con termini specifici del nostro contesto.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Importa la lista predefinita di stop words in inglese.
Aggiorna la lista predefinita di stop words con la lista fornita ['airline', 'airlines', '@'] per creare my_stop_words.
Specifica l'argomento delle stop words nel vettorizzatore.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Modifica ed esegui il codice