¿Qué estado es el más favorable a los mercados?

Mientras exploras los datos de mercados agrícolas, te preguntas qué patrones podrían aparecer si agregas a nivel de estado. ¿Algunos estados son más favorables a los mercados que otros? Para investigarlo, agrupas tus datos por estado y calculas el número de mercados con transformación logarítmica (log_markets) y las poblaciones estatales (log_pop).

markets_and_pop = (markets
    .groupby('state', as_index = False)
    .agg({
       'name': lambda d: log(len(d)),
       'state_pop': lambda d: log(d.iloc[0]) })
    .rename(columns = {
        'name': 'log_markets', 
        'state_pop': 'log_pop' }))

Para visualizar, decides usar un gráfico de regresión para hacerte una idea de la relación «normal» entre número de mercados y población, y un diagrama de dispersión con texto para identificar rápidamente valores atípicos interesantes.

Este ejercicio forma parte del curso

Mejora tus visualizaciones de datos en Python

Ver curso

Instrucciones del ejercicio

Itera sobre las filas del DataFrame markets_and_pop.
Coloca anotaciones junto a sus puntos en el diagrama de dispersión.
Reduce el tamaño del texto de las anotaciones a 10 puntos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

g = sns.regplot(
    "log_markets", "log_pop", 
    ci = False,
    # Shrink scatter plot points
    scatter_kws = {'s':2},
    data = markets_and_pop)

# Iterate over the rows of the data
for _, row in markets_and_pop.____():
    state, _, _, log_markets, log_pop = row
    # Place annotation and reduce size for clarity
    g.annotate(state, (____,____), ____ = ____)

plt.show()

Editar y ejecutar código