TfIdf sur les données de sentiment des compagnies aériennes sur Twitter

Vous allez maintenant construire des features à l’aide de la méthode TfIdf. Vous continuez à travailler avec le jeu de données tweets.

Dans cet exercice, vous mettrez en pratique ce que vous avez appris dans les leçons précédentes : supprimer les stop words, utiliser un motif de jeton (token pattern) et spécifier les n-grams.

Le résultat final sera un DataFrame dont les colonnes sont créées avec TfidfVectorizer(). Un tel DataFrame peut être passé directement à un modèle d’apprentissage supervisé, ce que nous aborderons au chapitre suivant.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Importez le package nécessaire pour construire un TfidfVectorizer et ENGLISH_STOP_WORDS.
Créez un vectoriseur TfIdf à partir de la colonne text du jeu de données tweets, en spécifiant les uni- et bi-grammes comme choix de n-grams, des tokens ne contenant que des caractères alphanumériques en utilisant le motif de jeton fourni, et les stop words correspondant à ENGLISH_STOP_WORDS.
Transformez le vectoriseur en spécifiant la même colonne que celle utilisée pour l’apprentissage (fit).
Spécifiez les noms de colonnes dans la fonction DataFrame().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Modifier et exécuter le code