ComenzarEmpieza gratis

Anotar intervalos de confianza

Tu trabajo en ciencia de datos con datos de contaminación es legendario, y ahora estás valorando ofertas en Cincinnati (Ohio) e Indianápolis (Indiana). Quieres ver si los niveles de SO2 son significativamente distintos entre las dos ciudades y, más en concreto, qué ciudad tiene niveles más bajos. Para probarlo, decides analizar las diferencias en los valores de SO2 de las ciudades (los de Indianápolis - los de Cincinnati) a lo largo de varios años (disponibles como diffs_by_year).

En lugar de mostrar solo un valor p para una diferencia significativa entre las ciudades, decides observar los intervalos de confianza del 95% (columnas lower y upper) de las diferencias. Esto te permite ver la magnitud de las diferencias junto con posibles tendencias a lo largo de los años.

Este ejercicio forma parte del curso

Mejora tus visualizaciones de datos en Python

Ver curso

Instrucciones del ejercicio

  • Proporciona los límites inicial y final (columnas lower y upper) de tus intervalos de confianza a plt.hlines().
  • Establece el grosor del intervalo en 5.
  • Dibuja una línea vertical que represente una diferencia de 0 con plt.axvline().
  • Colorea la línea nula de color 'orangered' para que destaque.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set start and ends according to intervals 
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____', 
           linewidth = ____, color = 'steelblue', alpha = 0.7,
           data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)

# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')

# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()
Editar y ejecutar código