Quel État est le plus favorable aux marchés ?
En explorant les données sur les marchés de producteurs, vous vous demandez quels motifs apparaissent si vous agrégiez au niveau des États. Certains États sont-ils plus favorables aux marchés que d’autres ? Pour l’étudier, vous regroupez vos données par État et calculez le nombre de marchés transformé en logarithme (log_markets) et les populations des États (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Pour visualiser, vous choisissez un graphique de régression pour avoir une idée de la relation « normale » entre le nombre de marchés et la population, ainsi qu’un nuage de points avec étiquettes pour repérer rapidement les valeurs aberrantes intéressantes.
Cet exercice fait partie du cours
Améliorer vos visualisations de données en Python
Instructions
- Itérez sur les lignes du DataFrame
markets_and_pop. - Placez les annotations à côté de leurs points dans le nuage de points.
- Réduisez la taille du texte des annotations à
10points.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()