Anotar intervalos de confianza
Tu trabajo en ciencia de datos con datos de contaminación es legendario, y ahora estás valorando ofertas en Cincinnati (Ohio) e Indianápolis (Indiana). Quieres ver si los niveles de SO2 son significativamente distintos entre las dos ciudades y, más en concreto, qué ciudad tiene niveles más bajos. Para probarlo, decides analizar las diferencias en los valores de SO2 de las ciudades (los de Indianápolis - los de Cincinnati) a lo largo de varios años (disponibles como diffs_by_year).
En lugar de mostrar solo un valor p para una diferencia significativa entre las ciudades, decides observar los intervalos de confianza del 95% (columnas lower y upper) de las diferencias. Esto te permite ver la magnitud de las diferencias junto con posibles tendencias a lo largo de los años.
Este ejercicio forma parte del curso
Mejora tus visualizaciones de datos en Python
Instrucciones del ejercicio
- Proporciona los límites inicial y final (columnas
loweryupper) de tus intervalos de confianza aplt.hlines(). - Establece el grosor del intervalo en
5. - Dibuja una línea vertical que represente una diferencia de
0conplt.axvline(). - Colorea la línea nula de color
'orangered'para que destaque.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set start and ends according to intervals
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____',
linewidth = ____, color = 'steelblue', alpha = 0.7,
data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)
# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')
# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()