Transformer des données encore jamais vues

Lorsque vous créez des vecteurs à partir de texte, toutes les transformations effectuées avant d’entraîner un modèle de Machine Learning doivent aussi être appliquées aux nouvelles données encore jamais vues (test). Pour cela, reprenez l’approche du chapitre précédent : ajustez le vectoriseur uniquement sur les données d’entraînement, puis appliquez‑le aux données de test.

Pour cet exercice, le DataFrame speech_df a été scindé en deux :

train_speech_df : l’ensemble d’entraînement comprenant les 45 premiers discours.
test_speech_df : l’ensemble de test comprenant les discours restants.

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>

Voir le cours

Instructions de l’exercice

Instanciez TfidfVectorizer.
Ajustez le vectoriseur et appliquez‑le à la colonne text_clean.
Appliquez le même vectoriseur à la colonne text_clean des données de test.
Créez un DataFrame à partir de ces nouvelles caractéristiques issues de l’ensemble de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())

Modifier et exécuter le code