1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Wykrywanie błędnych złączeń

Złączenia mogą cicho zawodzić – nie zgłaszają błędu, ale zwracają zniekształcone dane z większą lub mniejszą liczbą rekordów, niż oczekiwano. Przyjrzyjmy się kilku sytuacjom, w których nieprawidłowe złączenie psuje zbiór danych.

W tym ćwiczeniu sprawdzisz, co się dzieje, gdy łączysz dwie ramki danych o różnej precyzji kluczy złączenia, i porównasz liczbę rekordów w poprawnym oraz niepoprawnym złączeniu.

Instrukcje

100 XP
  • Utwórz złączenie między df_orig – ramką danych przed korektą precyzji – a walk_df, dopasowując rekordy po kolumnach longitude i latitude w odpowiednich ramkach.
  • Zlicz brakujące wartości za pomocą where() i isNull() na df['walkscore'] oraz correct_join['walkscore']. Zauważysz wiele brakujących wartości, ponieważ typy danych i precyzja nie są zgodne.
  • Utwórz złączenie między df a walk_df, dopasowując rekordy wyłącznie po kolumnie longitude.
  • Zlicz rekordy za pomocą count() dla few_keys_df i correct_join_df. Zauważysz znacznie więcej rekordów, ponieważ warunek dopasowania nie jest wystarczająco ograniczający.