TfIdf sur les données de sentiment des compagnies aériennes sur Twitter
Vous allez maintenant construire des features à l’aide de la méthode TfIdf. Vous continuez à travailler avec le jeu de données tweets.
Dans cet exercice, vous mettrez en pratique ce que vous avez appris dans les leçons précédentes : supprimer les stop words, utiliser un motif de jeton (token pattern) et spécifier les n-grams.
Le résultat final sera un DataFrame dont les colonnes sont créées avec TfidfVectorizer(). Un tel DataFrame peut être passé directement à un modèle d’apprentissage supervisé, ce que nous aborderons au chapitre suivant.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez le package nécessaire pour construire un TfidfVectorizer et
ENGLISH_STOP_WORDS. - Créez un vectoriseur TfIdf à partir de la colonne
textdu jeu de donnéestweets, en spécifiant les uni- et bi-grammes comme choix de n-grams, des tokens ne contenant que des caractères alphanumériques en utilisant le motif de jeton fourni, et les stop words correspondant àENGLISH_STOP_WORDS. - Transformez le vectoriseur en spécifiant la même colonne que celle utilisée pour l’apprentissage (fit).
- Spécifiez les noms de colonnes dans la fonction
DataFrame().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())