Interval 90%, 95%, dan 99%
Anda adalah data scientist untuk sebuah perusahaan petualangan alam terbuka di Fairbanks, Alaska. Belakangan ini, pelanggan mengalami masalah dengan polusi SO2, yang menyebabkan pembatalan yang mahal. Perusahaan memiliki sensor untuk CO, NO2, dan O3 tetapi tidak untuk tingkat SO2.
Anda telah membangun model yang memprediksi nilai SO2 berdasarkan nilai polutan yang memiliki sensor (dimuat sebagai pollution_model, sebuah objek statsmodels). Anda ingin menyelidiki nilai polutan mana yang memiliki pengaruh terbesar pada prediksi SO2 oleh model Anda. Ini akan membantu Anda mengetahui nilai polutan mana yang perlu paling diperhatikan saat merencanakan tur luar ruangan. Untuk memaksimalkan informasi dalam laporan Anda, tampilkan beberapa tingkat ketidakpastian untuk estimasi model.
Latihan ini adalah bagian dari kursus
Meningkatkan Visualisasi Data Anda di Python
Petunjuk latihan
- Isikan persentase lebar interval yang sesuai (dari 90, 95, dan 99%) berdasarkan daftar nilai pada
alpha. - Di dalam for loop, warnai interval sesuai
coloryang ditetapkan. - Teruskan nilai persentase
widthdari loop keplt.hlines()untuk memberi label pada legenda.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Add interval percent widths
alphas = [ 0.01, 0.05, 0.1]
widths = [ '__% CI', '__%', '__%']
colors = ['#fee08b','#fc8d59','#d53e4f']
for alpha, color, width in zip(alphas, colors, widths):
# Grab confidence interval
conf_ints = pollution_model.conf_int(alpha)
# Pass current interval color and legend label to plot
plt.hlines(y = conf_ints.index, xmin = conf_ints[0], xmax = conf_ints[1],
colors = ____, ____ = width, linewidth = 10)
# Draw point estimates
plt.plot(pollution_model.params, pollution_model.params.index, 'wo', label = 'Point Estimate')
plt.legend()
plt.show()