Memvisualisasikan Statistik Uji

Dalam latihan ini, Anda akan mendekati hipotesis nol dengan membandingkan sebaran sebuah statistik uji yang diperoleh melalui dua cara berbeda.

Pertama, Anda akan menelaah dua "populasi" yang dikelompokkan berdasarkan waktu awal dan akhir, lalu menghitung sebaran statistik uji. Kedua, acak kedua populasi tersebut sehingga data tidak lagi berurutan berdasarkan waktu, dan masing-masing berisi campuran waktu awal dan akhir, kemudian hitung kembali sebaran statistik uji.

Agar Anda dapat langsung mulai, kami telah memuat dua kelompok durasi waktu, group_duration_short dan group_duration_long, serta dua fungsi, shuffle_and_split() dan plot_test_statistic().

Latihan ini merupakan bagian dari kursus

Pengantar Pemodelan Linear di Python

Instruksi latihan

Gunakan np.random.choice() untuk melakukan resampling pada group_duration_short dan group_duration_long, lalu ambil selisih hasil resampling untuk menghitung test_statistic_unshuffled.
Gunakan shuffle_and_split() pada group_duration_short dan group_duration_long asli (dituliskan dalam urutan ini) untuk membuat dua populasi campuran yang baru.
Lakukan resampling pada populasi yang telah diacak, dan kurangkan resample_short dari resample_long untuk menghitung test_statistic_shuffled yang baru.
Gunakan plot_test_statistic() untuk memvisualisasikan kedua sebaran statistik uji, lalu bandingkan secara visual.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# From the unshuffled groups, compute the test statistic distribution
resample_short = np.random.choice(____, size=500, replace=____)
resample_long = np.random.choice(____, size=500, replace=____)
test_statistic_unshuffled = ____ - ____

# Shuffle two populations, cut in half, and recompute the test statistic
shuffled_half1, shuffled_half2 = shuffle_and_split(____, ____)
resample_half1 = np.random.choice(____, size=500, replace=____)
resample_half2 = np.random.choice(____, size=500, replace=____)
test_statistic_shuffled = resample_half2 - resample_half1

# Plot both the unshuffled and shuffled results and compare
fig = plot_test_statistic(____, label='Unshuffled')
fig = plot_test_statistic(____, label='Shuffled')

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Pemodelan Linear di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Kita memulai kursus dengan eksplorasi awal terhadap hubungan linear, termasuk beberapa contoh pemicu tentang bagaimana model linear digunakan, serta demonstrasi metode visualisasi data dari matplotlib. Selanjutnya kita menggunakan statistik deskriptif untuk mengkuantifikasi bentuk data dan menggunakan korelasi untuk mengukur kekuatan hubungan linear antara dua variabel.

Exercise 1: Pengantar Pemodelan Data Exercise 2: Alasan Melakukan Pemodelan: Interpolasi Exercise 3: Alasan Melakukan Pemodelan: Ekstrapolasi Exercise 4: Alasan Melakukan Pemodelan: Mengestimasi Hubungan Exercise 5: Memvisualisasikan Hubungan Linear Exercise 6: Memplot Data Exercise 7: Memplot Model pada Data Exercise 8: Mengestimasi Kemiringan & Intersep Secara Visual Exercise 9: Mengkuantifikasi Hubungan Linear Exercise 10: Mean, Deviasi, & Standar Deviasi Exercise 11: Kovarians vs Korelasi Exercise 12: Kekuatan Korelasi

Di sini kita melihat komponen yang membentuk sebuah model linear. Menggunakan konsep Deret Taylor, kita berfokus pada parameter kemiringan (slope) dan intersep, bagaimana keduanya mendefinisikan model, serta cara menafsirkannya dalam berbagai konteks terapan. Kita menerapkan beragam modul Python untuk menemukan model yang paling sesuai dengan data, dengan menghitung nilai optimal dari kemiringan dan intersep menggunakan least-squares, numpy, statsmodels, dan scikit-learn.

Exercise 1: Apa yang membuat sebuah model linear Exercise 2: Suku dalam sebuah Model Exercise 3: Komponen Model Exercise 4: Parameter Model Exercise 5: Menafsirkan Kemiringan dan Intersep Exercise 6: Proporsionalitas Linear Exercise 7: Kemiringan dan Laju Perubahan Exercise 8: Intersep dan Titik Awal Exercise 9: Optimisasi Model Exercise 10: Residual Sum of the Squares Exercise 11: Meminimalkan Residual Exercise 12: Memvisualisasikan Minimum RSS Exercise 13: Optimisasi Kuadrat Terkecil Exercise 14: Kuadrat Terkecil dengan `numpy`Exercise 15: Optimisasi dengan Scipy Exercise 16: Kuadrat Terkecil dengan `statsmodels`

Berikutnya kita akan menerapkan model pada data nyata dan membuat prediksi. Kita akan mengeksplorasi beberapa jebakan umum dan keterbatasan prediksi, serta mengevaluasi dan membandingkan model dengan mengkuantifikasi dan mengontraskan sejumlah ukuran goodness-of-fit, termasuk RMSE dan R-squared.

Exercise 1: Pemodelan Data Nyata Exercise 2: Model Linear dalam Antropologi Exercise 3: Model Linear dalam Oseanografi Exercise 4: Model Linear dalam Kosmologi Exercise 5: Batas Prediksi Exercise 6: Interpolasi: Waktu di Antara Exercise 7: Ekstrapolasi: Melewati Batas Exercise 8: Kebaikan-Sesuai (Goodness-of-Fit)Exercise 9: RMSE langkah demi langkah Exercise 10: R-Squared Exercise 11: Galat Baku Exercise 12: Variasi di Sekitar Tren Exercise 13: Variasi dalam Dua Bagian

Pada bab terakhir, kita memperkenalkan konsep dari statistika inferensial, dan menggunakannya untuk mengeksplorasi bagaimana maximum likelihood estimation dan bootstrap resampling dapat digunakan untuk mengestimasi parameter model linear. Kemudian kita menerapkan metode ini untuk membuat pernyataan probabilistik tentang keyakinan kita terhadap parameter model.

Exercise 1: Konsep Statistik Inferensial Exercise 2: Statistik Sampel versus Populasi Exercise 3: Variasi dalam Statistik Sampel Exercise 4: Memvisualisasikan Variasi Suatu Statistik Exercise 5: Estimasi Model dan Likelihood Exercise 6: Estimasi Parameter Populasi Exercise 7: Memaksimalkan Likelihood, Bagian 1 Exercise 8: Memaksimalkan Likelihood, Bagian 2 Exercise 9: Ketidakpastian Model dan Distribusi Sampel Exercise 10: Bootstrap dan Standard Error Exercise 11: Mengestimasi Kecepatan dan Kepercayaan Exercise 12: Visualisasikan Bootstrap Exercise 13: Kesalahan Model dan Keacakan Exercise 14: Statistik Uji dan Ukuran Efek Exercise 15: Hipotesis Nol Exercise 16: Memvisualisasikan Statistik Uji

Latihan Saat Ini

Exercise 17: Memvisualisasikan P-Value Exercise 18: Penutup Kursus