Exploración con diagramas de caja
Dos formatos habituales de Marco de datos son el formato ancho y el formato largo. El formato ancho muestra distintas variables representadas en distintas columnas, mientras que el formato largo muestra distintas variables representadas por dos columnas juntas (una para el nombre de la variable y otra para los valores correspondientes).
Las versiones largas de los DataFrames pueden ser útiles para crear fácilmente diferentes visualizaciones, incluido el boxplot que crearás en este ejercicio después de convertir df_diffs
(cargado por ti) de formato ancho a formato largo.
pandas se ha cargado para ti como pd
, matplotlib.pyplot
como plt
, y Seaborn como sns
.
Este ejercicio forma parte del curso
Simulaciones Montecarlo en Python
Instrucciones de ejercicio
- Convierte las columnas
bmi
yhdl
(especificadas en ese orden) del DataFramedf_diffs
de formato ancho a formato largo; guarda el DataFrame largo comohdl_bmi_long
y nombra la columna que contendrá los valores variablesy_diff
. - Utiliza un diagrama de caja para visualizar los resultados de los pacientes en el primer o último cuartil de las variables
hdl
ybmi
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Convert the hdl and bmi columns of df_diffs from wide to long format, naming the values column "y_diff"
hdl_bmi_long = df_diffs.____(value_name=____, value_vars=____)
print(hdl_bmi_long.head())
# Use a boxplot to visualize the results
____
plt.show()