1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Ryzykowne złączenie

W tym ćwiczeniu połączymy dane na podstawie szerokości i długości geograficznej, aby dołączyć kolejny zbiór danych zawierający informacje o tym, jak przyjazna pieszym jest dana dzielnica. Trzeba uważać, żeby kolumny użyte do złączenia miały ten sam typ danych oraz tę samą precyzję (liczbę miejsc po przecinku) – inaczej złączenie nie zadziała!

Poniżej zobaczysz, że df['latitude'] i df['longitude'] mają wyższą precyzję niż walk_df['longitude'] i walk_df['latitude']. Należy je zaokrąglić do tej samej precyzji, aby złączenie przebiegło poprawnie.

Instrukcje

100 XP
  • Przekonwertuj walk_df['latitude'] i walk_df['longitude'] na typ double, używając cast('double') na kolumnie i zastępując ją w miejscu za pomocą withColumn().
  • Zaokrąglij kolumny w miejscu, korzystając z withColumn() oraz round('latitude', 5) i round('longitude', 5).
  • Utwórz warunek złączenia: walk_df['latitude'] pasuje do df['latitude'], a walk_df['longitude'] pasuje do df['longitude'].
  • Połącz df i walk_df za pomocą join(), używając powyższego warunku i typu złączenia left. Zapisz wynikową ramkę danych jako join_df.