CommencerCommencer gratuitement

TfIdf sur les données de sentiment des compagnies aériennes sur Twitter

Vous allez maintenant construire des features à l’aide de la méthode TfIdf. Vous continuez à travailler avec le jeu de données tweets.

Dans cet exercice, vous mettrez en pratique ce que vous avez appris dans les leçons précédentes : supprimer les stop words, utiliser un motif de jeton (token pattern) et spécifier les n-grams.

Le résultat final sera un DataFrame dont les colonnes sont créées avec TfidfVectorizer(). Un tel DataFrame peut être passé directement à un modèle d’apprentissage supervisé, ce que nous aborderons au chapitre suivant.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez le package nécessaire pour construire un TfidfVectorizer et ENGLISH_STOP_WORDS.
  • Créez un vectoriseur TfIdf à partir de la colonne text du jeu de données tweets, en spécifiant les uni- et bi-grammes comme choix de n-grams, des tokens ne contenant que des caractères alphanumériques en utilisant le motif de jeton fourni, et les stop words correspondant à ENGLISH_STOP_WORDS.
  • Transformez le vectoriseur en spécifiant la même colonne que celle utilisée pour l’apprentissage (fit).
  • Spécifiez les noms de colonnes dans la fonction DataFrame().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())
Modifier et exécuter le code