Quel État est le plus favorable aux marchés ?
En explorant les données sur les marchés de producteurs, vous vous demandez quels motifs apparaissent si vous agrégiez au niveau des États. Certains États sont-ils plus favorables aux marchés que d’autres ? Pour l’étudier, vous regroupez vos données par État et calculez le nombre de marchés transformé en logarithme (log_markets) et les populations des États (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Pour visualiser, vous choisissez un graphique de régression pour avoir une idée de la relation « normale » entre le nombre de marchés et la population, ainsi qu’un nuage de points avec étiquettes pour repérer rapidement les valeurs aberrantes intéressantes.
Cet exercice fait partie du cours
<cours>Améliorer vos visualisations de données en Python</cours>Instructions de l’exercice
- Itérez sur les lignes du DataFrame
markets_and_pop. - Placez les annotations à côté de leurs points dans le nuage de points.
- Réduisez la taille du texte des annotations à
10points.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()