Limpieza de datos de pruebas A/B
La limpieza de datos en pruebas A/B no difiere del proceso habitual que se enseña en cursos de limpieza y manipulación de datos. Sin embargo, entender el contexto y cómo se registran los datos de cada prueba A/B caso por caso te permite decidir cómo tratar datos desordenados. Eliminar o mantener duplicados o valores ausentes son dos situaciones en las que hay que tener cuidado con la definición de las métricas y con su consistencia entre variantes.
Los DataFrames AdSmart y homepage, así como las librerías pandas y numpy, ya están cargados.
La fuente del conjunto de datos Adsmart en Kaggle está enlazada aquí. (https://www.kaggle.com/datasets/osuolaleemmanuel/ad-ab-testing)
Este ejercicio forma parte del curso
A/B Testing en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Check for duplicate rows due to logging issues
print(____(AdSmart))
print(____(AdSmart.____(keep='____')))