1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wizualizacja dużych zbiorów danych z Trelliscope w R

Connected

ćwiczenie

Zależność między czasem przejazdu a całkowitą opłatą

Można się spodziewać, że całkowita opłata za przejazd taksówką jest powiązana z jego czasem trwania. Ponieważ punktów danych jest zbyt wiele, by stworzyć wykres rozrzutu, użyjemy wykresu heksagonalnego, aby zbadać tę zależność.

tx jest dostępny w twoim środowisku roboczym.

Instrukcje

100 XP
  • Użyj heksagonalnych pojemników, aby zwizualizować dwuwymiarowy rozkład total_amount (oś y) względem trip_duration (oś x).
  • Ustaw argument bins funkcji geom_hex() na 75.
  • Ponieważ obie zmienne mają silnie skośny rozkład, przeskaluj obie osie do logarytmu o podstawie 10. Pamiętaj, że te przekształcenia mogą generować ostrzeżenia dotyczące stosunkowo niewielkiej liczby rekordów z zerowym czasem przejazdu lub opłatą.