Mulai sekarangMulai gratis

Plot EDA I

Setelah menghasilkan beberapa statistik dasar, kini saatnya merumuskan dan memvalidasi beberapa ide tentang ketergantungan data. Sekali lagi, DataFrame train dari kompetisi taksi sudah tersedia di ruang kerja Anda.

Sebagai awal, mari buat scatterplot yang menunjukkan hubungan antara jumlah ongkos dan jarak perjalanan. Secara intuitif, semakin panjang perjalanannya, semakin tinggi harganya.

Untuk mendapatkan jarak dalam kilometer antara dua koordinat geografis, Anda akan menggunakan jarak Haversine. Perhitungannya tersedia melalui fungsi haversine_distance() yang sudah didefinisikan untuk Anda. Fungsi ini mengharapkan input berupa DataFrame train.

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Lihat Kursus

Instruksi latihan

  • Buat variabel baru "distance_km" sebagai jarak Haversine antara titik penjemputan dan pengantaran.
  • Buat scatterplot dengan "fare_amount" pada sumbu x dan "distance_km" pada sumbu y. Untuk menggambar scatterplot gunakan metode matplotlib scatter().
  • Tetapkan batas jarak perjalanan antara 0 hingga 50 kilometer untuk menghindari pemetaan outlier.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Calculate the ride distance
train['distance_km'] = ____(train)

# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')

# Limit on the distance
plt.ylim(0, ____)
plt.show()
Edit dan Jalankan Kode