LoslegenKostenlos loslegen

EDA-Plots I

Nachdem du ein paar grundlegende Statistiken erzeugt hast, ist es Zeit, erste Ideen zu Abhängigkeiten in den Daten zu entwickeln und zu überprüfen. Der DataFrame train aus dem Taxi-Wettbewerb ist wieder in deinem Workspace verfügbar.

Lass uns zunächst ein Streudiagramm erstellen, das den Zusammenhang zwischen dem Fahrpreis und der zurückgelegten Strecke zeigt. Intuitiv gilt: Je länger die Fahrt, desto höher der Preis.

Um die Entfernung in Kilometern zwischen zwei Geokoordinaten zu erhalten, verwendest du die Haversine-Distanz. Die Berechnung ist über die für dich definierte Funktion haversine_distance() verfügbar. Die Funktion erwartet den DataFrame train als Eingabe.

Diese Übung ist Teil des Kurses

Eine Kaggle-Competition in Python gewinnen

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine neue Variable "distance_km" als Haversine-Distanz zwischen Abhol- und Absetzpunkt.
  • Zeichne ein Streudiagramm mit "fare_amount" auf der x-Achse und "distance_km" auf der y-Achse. Verwende für das Streudiagramm die matplotlib-Methode scatter().
  • Begrenze die Fahrtdistanz auf einen Bereich zwischen 0 und 50 Kilometern, um Ausreißer nicht zu plotten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate the ride distance
train['distance_km'] = ____(train)

# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')

# Limit on the distance
plt.ylim(0, ____)
plt.show()
Code bearbeiten und ausführen