Transformer des données encore jamais vues
Lorsque vous créez des vecteurs à partir de texte, toutes les transformations effectuées avant d’entraîner un modèle de Machine Learning doivent aussi être appliquées aux nouvelles données encore jamais vues (test). Pour cela, reprenez l’approche du chapitre précédent : ajustez le vectoriseur uniquement sur les données d’entraînement, puis appliquez‑le aux données de test.
Pour cet exercice, le DataFrame speech_df a été scindé en deux :
train_speech_df: l’ensemble d’entraînement comprenant les 45 premiers discours.test_speech_df: l’ensemble de test comprenant les discours restants.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Instanciez
TfidfVectorizer. - Ajustez le vectoriseur et appliquez‑le à la colonne
text_clean. - Appliquez le même vectoriseur à la colonne
text_cleandes données de test. - Créez un DataFrame à partir de ces nouvelles caractéristiques issues de l’ensemble de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())