Plot EDA I
Setelah menghasilkan beberapa statistik dasar, kini saatnya merumuskan dan memvalidasi beberapa ide tentang ketergantungan data. Sekali lagi, DataFrame train dari kompetisi taksi sudah tersedia di ruang kerja Anda.
Sebagai awal, mari buat scatterplot yang menunjukkan hubungan antara jumlah ongkos dan jarak perjalanan. Secara intuitif, semakin panjang perjalanannya, semakin tinggi harganya.
Untuk mendapatkan jarak dalam kilometer antara dua koordinat geografis, Anda akan menggunakan jarak Haversine. Perhitungannya tersedia melalui fungsi haversine_distance() yang sudah didefinisikan untuk Anda. Fungsi ini mengharapkan input berupa DataFrame train.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Petunjuk latihan
- Buat variabel baru "distance_km" sebagai jarak Haversine antara titik penjemputan dan pengantaran.
- Buat scatterplot dengan "fare_amount" pada sumbu x dan "distance_km" pada sumbu y. Untuk menggambar scatterplot gunakan metode matplotlib
scatter(). - Tetapkan batas jarak perjalanan antara 0 hingga 50 kilometer untuk menghindari pemetaan outlier.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()