Verschillen in variabelen begrijpen
Nu ga je de gemiddelden en standaarddeviaties van elke variabele analyseren door ze in een staafdiagram te plotten. Dit is een aanvulling op de vorige stap, omdat je zo visueel de verschillen in schalen en varianties van variabelen onderzoekt.
De bibliotheek pandas is geladen als pd en matplotlib.pyplot als plt. Daarnaast is de wholesale-gegevensset geladen als een pandas DataFrame, terwijl de gemiddelden en standaarddeviaties voor elke kolom van de wholesale-gegevensset zijn geladen als pandas Series met respectievelijk de namen averages en std_devs. Vergeet niet om ze in de console te verkennen.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Maak een lijst met de kolomnamen van
wholesaleen nog een met gesorteerde waarden van 0 tot het aantal kolommen inwholesale. - Plot
averagesin grijs enstd_devsin oranje, en schuif de x-as 0,2 op. - Voeg
x_ixtoe als ticks enx_namesals labels en draai ze 90 graden. - Voeg de legend toe en laat de grafiek zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create column names list and same length integer list
x_names = wholesale.___
x_ix = np.arange(wholesale.shape[1])
# Plot the averages data in gray and standard deviations in orange
plt.bar(x=x_ix-___, height=averages, color='grey', label='Average', width=0.4)
plt.bar(x=x_ix+___, height=std_devs, color='orange', label='Standard Deviation', width=0.4)
# Add x-axis labels and rotate
plt.xticks(ticks=___, labels=x_names, rotation=90)
# Add the legend and display the chart
plt.legend()
plt.___()