Memberi anotasi pada interval kepercayaan
Pekerjaan ilmu data Anda dengan data polusi sudah tersohor, dan kini Anda mempertimbangkan dua tawaran pekerjaan di Cincinnati, Ohio dan Indianapolis, Indiana. Anda ingin melihat apakah tingkat SO2 berbeda secara signifikan di kedua kota tersebut, dan lebih khusus lagi, kota mana yang memiliki tingkat lebih rendah. Untuk mengujinya, Anda memutuskan untuk melihat perbedaan nilai SO2 antarkota (nilai Indianapolis - Cincinnati) selama beberapa tahun (tersedia sebagai diffs_by_year).
Alih-alih hanya menampilkan p-value untuk perbedaan signifikan antar kota, Anda memilih untuk melihat interval kepercayaan 95% (kolom lower dan upper) dari perbedaan tersebut. Ini memungkinkan Anda melihat besarnya perbedaan sekaligus tren sepanjang tahun.
Latihan ini adalah bagian dari kursus
Meningkatkan Visualisasi Data Anda di Python
Petunjuk latihan
- Berikan batas awal dan akhir (kolom
lowerdanupper) untuk interval kepercayaan Anda keplt.hlines(). - Atur ketebalan interval menjadi
5. - Gambar garis vertikal yang merepresentasikan perbedaan
0denganplt.axvline(). - Warnai garis nol
'orangered'agar menonjol.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set start and ends according to intervals
# Make intervals thicker
plt.hlines(y = 'year', xmin = '____', xmax = '____',
linewidth = ____, color = 'steelblue', alpha = 0.7,
data = diffs_by_year)
# Point estimates
plt.plot('mean', 'year', 'k|', data = diffs_by_year)
# Add a 'null' reference line at 0 and color orangered
plt.axvline(x = ____, color = '____', linestyle = '--')
# Set descriptive axis labels and title
plt.xlabel('95% CI')
plt.title('Avg SO2 differences between Cincinnati and Indianapolis')
plt.show()