Verkennen met boxplots
Twee veelvoorkomende DataFrame-formaten zijn het brede (wide) formaat en het lange (long) formaat. In het brede formaat staan verschillende variabelen in aparte kolommen, terwijl in het lange formaat variabelen worden weergegeven door twee kolommen samen (één voor de variabelenaam en één voor de bijbehorende waarden).
Lange versies van DataFrames zijn handig om snel verschillende visualisaties te maken, waaronder de boxplot die je in deze oefening gaat maken nadat je df_diffs (al voor je ingeladen) van breed naar lang formaat hebt omgezet.
pandas is voor je ingeladen als pd, matplotlib.pyplot als plt en Seaborn als sns.
Deze oefening maakt deel uit van de cursus
Monte Carlo-simulaties in Python
Oefeninstructies
- Zet de kolommen
bmienhdl(in die volgorde) van de DataFramedf_diffsom van breed naar lang formaat; sla de lange DataFrame op alshdl_bmi_longen noem de kolom met de variabelewaardeny_diff. - Gebruik een boxplot om de resultaten te visualiseren van patiënten in het eerste of laatste kwartiel van de variabelen
hdlenbmi.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert the hdl and bmi columns of df_diffs from wide to long format, naming the values column "y_diff"
hdl_bmi_long = df_diffs.____(value_name=____, value_vars=____)
print(hdl_bmi_long.head())
# Use a boxplot to visualize the results
____
plt.show()