Welke staat is het meest marktvriendelijk?
Tijdens het verkennen van de gegevens over farmer's markets vraag je je af welke patronen zichtbaar worden als je aggregeert op staatsniveau. Zijn sommige staten marktvriendelijker dan andere? Om dit te onderzoeken groepeer je je gegevens per staat en bereken je het gelogaritme van het aantal markten (log_markets) en de staatspopulaties (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Voor de visualisatie kies je een regressieplot om een idee te krijgen van de 'normale' relatie tussen het aantal markten en de bevolkingsomvang, en een tekst-scatter om snel interessante uitschieters te spotten.
Deze oefening maakt deel uit van de cursus
Je datavisualisaties verbeteren in Python
Oefeninstructies
- Itereer over de rijen van de
markets_and_popDataFrame. - Plaats annotaties naast hun punten in de scatterplot.
- Verklein de annotatietekst tot
10punten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()