1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Kontrola chybných joinů

Joiny mohou tiše selhat – bez chybové hlášky, ale s poškozenými daty, která obsahují více nebo méně záznamů, než jsi zamýšlel/a. Pojďme se podívat na pár situací, kdy nesprávné spojení tabulek může data znehodnotit.

V tomto příkladu uvidíš, co se stane, když spojíš dva dataframy s klíči různé přesnosti, a porovnáš počty záznamů mezi správným a nesprávným joinem.

Pokyny

100 XP
  • Vytvoř join mezi df_orig, tedy dataframem před opravou přesnosti, a walk_df – spoj je podle sloupců longitude a latitude v příslušných dataframech.
  • Spočítej chybějící hodnoty pomocí where() a isNull() na df['walkscore'] a correct_join['walkscore']. Všimni si, že chybějících hodnot je hodně, protože datové typy a přesnost se neshodují.
  • Vytvoř join mezi df a walk_df, který páruje záznamy pouze podle longitude.
  • Spočítej záznamy pomocí count() pro few_keys_df a correct_join_df. Všimni si, že výsledků je výrazně více, protože podmínky párování nejsou dostatečně omezující.