CommencerCommencer gratuitement

Créer de nouvelles features

Le feature engineering inclut aussi la création de nouvelles features. C’est important, car le modèle s’appuie sur ces features pour améliorer la précision des prédictions. Dans cet exercice, vous allez examiner trois colonnes qui apparaissent comme des entiers dans les données, mais représentent en réalité des valeurs catégorielles : search_engine_type, product_type et advertiser_type. Vous allez créer des features de comptage pour ces 3 colonnes, ainsi que pour device_id et site_id. Ces features de comptage représentent le nombre de clics pour chacune de ces colonnes et seront utilisées plus tard pour la prédiction.

Le module pandas est disponible sous le nom pd dans votre espace de travail et le DataFrame d’exemple est chargé sous le nom df.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

  • Affichez le nombre total de valeurs et le nombre de valeurs uniques pour chaque feature de la liste feature_list.
  • Créez de nouvelles features à partir des features dans new_feature_list en comptant le nombre de clics pour chaque feature à l’aide de .transform().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get counts of total and unique values for given features
feature_list = ["search_engine_type", "product_type", "advertiser_type"]
for feature in feature_list:
	print(df[feature].____)
	print(df[feature].____)

# Define new features as counts
new_feature_list = ['device_id', 'site_id'] + feature_list
for new_feature in new_feature_list:
  df[new_feature + '_count'] = df.____(
    new_feature)['click'].____("count")
print(df.head(5))
Modifier et exécuter le code