Nettoyage des données d’un test A/B
Le nettoyage des données d’un test A/B ne diffère pas du processus habituel présenté dans les cours de nettoyage et de manipulation de données. En revanche, comprendre le contexte et la façon dont chaque test A/B enregistre les données, au cas par cas, vous permet de décider comment traiter des données « sales ». Supprimer ou conserver les doublons et les valeurs manquantes sont deux situations où il faut être vigilant quant à la définition des métriques et à leur cohérence entre variantes.
Les DataFrames AdSmart et homepage, ainsi que les bibliothèques pandas et numpy, sont déjà chargés pour vous.
La source du jeu de données Adsmart sur Kaggle est liée ici : Kaggle dataset source is linked here.
Cet exercice fait partie du cours
A/B Testing en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Check for duplicate rows due to logging issues
print(____(AdSmart))
print(____(AdSmart.____(keep='____')))