Kekuatan Korelasi
Secara intuitif, kita dapat melihat plot yang disediakan dan “melihat” apakah kedua variabel tampak “berubah bersama”.
- Himpunan Data A: x dan y berubah bersama dan tampak memiliki hubungan yang kuat.
- Himpunan Data B: ada kecenderungan naik secara kasar; x dan y tampak hanya sedikit berkaitan.
- Himpunan Data C: terlihat seperti sebaran acak; x dan y tidak tampak berubah bersama dan tidak saling terkait.



Ingat bahwa deviasi adalah selisih dari mean, dan kita menormalisasi dengan membagi deviasi dengan standar deviasi. Pada latihan ini Anda akan membandingkan 3 himpunan data dengan menghitung korelasi, dan menentukan himpunan data mana yang memiliki variabel x dan y paling berkorelasi kuat. Gunakan tabel data data_sets yang disediakan, berupa kamus berisi rekaman, masing-masing memiliki kunci 'name', 'x', 'y', dan 'correlation'.
Latihan ini adalah bagian dari kursus
Pengantar Pemodelan Linear di Python
Petunjuk latihan
- Lengkapi definisi fungsi
correlation()menggunakan mean dari hasil kali deviasi ternormalisasi darixdany. - Lakukan iterasi atas
data_sets, hitung dan simpan setiap korelasi menggunakancorrelation(record['x'], record['y']). - Jalankan kode sampai titik ini (yaitu hingga akhir for loop), lalu periksa hasil cetakannya. Himpunan data mana yang memiliki korelasi terkuat?
- Tetapkan nama himpunan data (
data_sets['A'],data_sets['B'], ataudata_sets['C']) dengan korelasi terkuat ke variabelbest_data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Complete the function that will compute correlation.
def correlation(x,y):
x_dev = x - np.____(x)
y_dev = y - np.____(y)
x_norm = x_dev / np.____(x)
y_norm = y_dev / np.____(y)
return np.____(x_norm * y_norm)
# Compute and store the correlation for each data set in the list.
for name, data in data_sets.items():
data['correlation'] = ____(data['x'], data['y'])
print('data set {} has correlation {:.2f}'.format(name, data['correlation']))
# Assign the data set with the best correlation.
best_data = data_sets['____']