IniziaInizia gratis

Grafici di EDA I

Dopo aver generato un paio di statistiche di base, è il momento di formulare e verificare alcune idee sulle dipendenze nei dati. Anche qui, il DataFrame train della competition dei taxi è già disponibile nel tuo workspace.

Per iniziare, creiamo uno scatterplot che mostri la relazione tra l'importo della corsa e la distanza percorsa. Intuitivamente, più lunga è la corsa, più alto sarà il prezzo.

Per ottenere la distanza in chilometri tra due geo-coordinate, userai la distanza di Haversine. Il suo calcolo è disponibile con la funzione haversine_distance() già definita per te. La funzione si aspetta come input il DataFrame train.

Questo esercizio fa parte del corso

Vincere una competizione Kaggle con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una nuova variabile "distance_km" come distanza di Haversine tra i punti di pickup e dropoff.
  • Traccia uno scatterplot con "fare_amount" sull'asse x e "distance_km" sull'asse y. Per disegnare uno scatterplot, usa il metodo scatter() di matplotlib.
  • Imposta un limite sulla distanza della corsa tra 0 e 50 chilometri per evitare di rappresentare gli outlier.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Calculate the ride distance
train['distance_km'] = ____(train)

# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')

# Limit on the distance
plt.ylim(0, ____)
plt.show()
Modifica ed esegui il codice