CommencerCommencez gratuitement

Quel État est le plus favorable aux marchés ?

En explorant les données sur les marchés de producteurs, vous vous demandez quels motifs apparaissent si vous agrégiez au niveau des États. Certains États sont-ils plus favorables aux marchés que d’autres ? Pour l’étudier, vous regroupez vos données par État et calculez le nombre de marchés transformé en logarithme (log_markets) et les populations des États (log_pop).

markets_and_pop = (markets
    .groupby('state', as_index = False)
    .agg({
       'name': lambda d: log(len(d)),
       'state_pop': lambda d: log(d.iloc[0]) })
    .rename(columns = {
        'name': 'log_markets', 
        'state_pop': 'log_pop' }))

Pour visualiser, vous choisissez un graphique de régression pour avoir une idée de la relation « normale » entre le nombre de marchés et la population, ainsi qu’un nuage de points avec étiquettes pour repérer rapidement les valeurs aberrantes intéressantes.

Cet exercice fait partie du cours

<cours>Améliorer vos visualisations de données en Python</cours>
Voir le cours

Instructions de l’exercice

  • Itérez sur les lignes du DataFrame markets_and_pop.
  • Placez les annotations à côté de leurs points dans le nuage de points.
  • Réduisez la taille du texte des annotations à 10 points.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

g = sns.regplot(
    "log_markets", "log_pop", 
    ci = False,
    # Shrink scatter plot points
    scatter_kws = {'s':2},
    data = markets_and_pop)

# Iterate over the rows of the data
for _, row in markets_and_pop.____():
    state, _, _, log_markets, log_pop = row
    # Place annotation and reduce size for clarity
    g.annotate(state, (____,____), ____ = ____)

plt.show()
Modifier et exécuter le code