Grafici di EDA I
Dopo aver generato un paio di statistiche di base, è il momento di formulare e verificare alcune idee sulle dipendenze nei dati. Anche qui, il DataFrame train della competition dei taxi è già disponibile nel tuo workspace.
Per iniziare, creiamo uno scatterplot che mostri la relazione tra l'importo della corsa e la distanza percorsa. Intuitivamente, più lunga è la corsa, più alto sarà il prezzo.
Per ottenere la distanza in chilometri tra due geo-coordinate, userai la distanza di Haversine. Il suo calcolo è disponibile con la funzione haversine_distance() già definita per te. La funzione si aspetta come input il DataFrame train.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Istruzioni dell'esercizio
- Crea una nuova variabile "distance_km" come distanza di Haversine tra i punti di pickup e dropoff.
- Traccia uno scatterplot con "fare_amount" sull'asse x e "distance_km" sull'asse y. Per disegnare uno scatterplot, usa il metodo
scatter()di matplotlib. - Imposta un limite sulla distanza della corsa tra 0 e 50 chilometri per evitare di rappresentare gli outlier.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()