EDA-Plots I
Nachdem du ein paar grundlegende Statistiken erzeugt hast, ist es Zeit, erste Ideen zu Abhängigkeiten in den Daten zu entwickeln und zu überprüfen. Der DataFrame train aus dem Taxi-Wettbewerb ist wieder in deinem Workspace verfügbar.
Lass uns zunächst ein Streudiagramm erstellen, das den Zusammenhang zwischen dem Fahrpreis und der zurückgelegten Strecke zeigt. Intuitiv gilt: Je länger die Fahrt, desto höher der Preis.
Um die Entfernung in Kilometern zwischen zwei Geokoordinaten zu erhalten, verwendest du die Haversine-Distanz. Die Berechnung ist über die für dich definierte Funktion haversine_distance() verfügbar. Die Funktion erwartet den DataFrame train als Eingabe.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Anleitung zur Übung
- Erstelle eine neue Variable "distance_km" als Haversine-Distanz zwischen Abhol- und Absetzpunkt.
- Zeichne ein Streudiagramm mit "fare_amount" auf der x-Achse und "distance_km" auf der y-Achse. Verwende für das Streudiagramm die matplotlib-Methode
scatter(). - Begrenze die Fahrtdistanz auf einen Bereich zwischen 0 und 50 Kilometern, um Ausreißer nicht zu plotten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()