MulaiMulai sekarang secara gratis

Kekuatan Korelasi

Secara intuitif, kita dapat melihat plot yang disediakan dan “melihat” apakah kedua variabel tampak “berubah bersama”.

  • Himpunan Data A: x dan y berubah bersama dan tampak memiliki hubungan yang kuat.
  • Himpunan Data B: ada kecenderungan naik secara kasar; x dan y tampak hanya sedikit berkaitan.
  • Himpunan Data C: terlihat seperti sebaran acak; x dan y tidak tampak berubah bersama dan tidak saling terkait.

Data Set A

Data Set B

Data Set C

Ingat bahwa deviasi adalah selisih dari mean, dan kita menormalisasi dengan membagi deviasi dengan standar deviasi. Pada latihan ini Anda akan membandingkan 3 himpunan data dengan menghitung korelasi, dan menentukan himpunan data mana yang memiliki variabel x dan y paling berkorelasi kuat. Gunakan tabel data data_sets yang disediakan, berupa kamus berisi rekaman, masing-masing memiliki kunci 'name', 'x', 'y', dan 'correlation'.

Latihan ini adalah bagian dari kursus

Pengantar Pemodelan Linear di Python

Lihat Kursus

Petunjuk latihan

  • Lengkapi definisi fungsi correlation() menggunakan mean dari hasil kali deviasi ternormalisasi dari x dan y.
  • Lakukan iterasi atas data_sets, hitung dan simpan setiap korelasi menggunakan correlation(record['x'], record['y']).
  • Jalankan kode sampai titik ini (yaitu hingga akhir for loop), lalu periksa hasil cetakannya. Himpunan data mana yang memiliki korelasi terkuat?
  • Tetapkan nama himpunan data (data_sets['A'], data_sets['B'], atau data_sets['C']) dengan korelasi terkuat ke variabel best_data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Complete the function that will compute correlation.
def correlation(x,y):
    x_dev = x - np.____(x)
    y_dev = y - np.____(y)
    x_norm = x_dev / np.____(x)
    y_norm = y_dev / np.____(y)
    return np.____(x_norm * y_norm)

# Compute and store the correlation for each data set in the list.
for name, data in data_sets.items():
    data['correlation'] = ____(data['x'], data['y'])
    print('data set {} has correlation {:.2f}'.format(name, data['correlation']))

# Assign the data set with the best correlation.
best_data = data_sets['____']
Edit dan Jalankan Kode