¿Qué estado es el más favorable a los mercados?
Mientras exploras los datos de mercados agrícolas, te preguntas qué patrones podrían aparecer si agregas a nivel de estado. ¿Algunos estados son más favorables a los mercados que otros? Para investigarlo, agrupas tus datos por estado y calculas el número de mercados con transformación logarítmica (log_markets) y las poblaciones estatales (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Para visualizar, decides usar un gráfico de regresión para hacerte una idea de la relación «normal» entre número de mercados y población, y un diagrama de dispersión con texto para identificar rápidamente valores atípicos interesantes.
Este ejercicio forma parte del curso
Mejora tus visualizaciones de datos en Python
Instrucciones del ejercicio
- Itera sobre las filas del DataFrame
markets_and_pop. - Coloca anotaciones junto a sus puntos en el diagrama de dispersión.
- Reduce el tamaño del texto de las anotaciones a
10puntos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()