1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Nebezpečný join

V tomto cvičení budeme joinovat podle zeměpisné šířky a délky, abychom přidali další dataset měřící, jak je daná čtvrť přívětivá pro pěší. Musíme si dát pozor na to, aby joinované sloupce měly stejný datový typ a stejnou přesnost (počet desetinných míst) – jinak join nebude fungovat!

Níže zjistíš, že df['latitude'] a df['longitude'] mají vyšší přesnost než walk_df['longitude'] a walk_df['latitude']. Budeme je muset zaokrouhlit na stejný počet desetinných míst, aby join proběhl správně.

Pokyny

100 XP
  • Převeď walk_df['latitude'] a walk_df['longitude'] na typ double pomocí cast('double') a nahraď sloupce na místě pomocí withColumn().
  • Zaokrouhli sloupce na místě pomocí withColumn() a funkcí round('latitude', 5) a round('longitude', 5).
  • Vytvoř podmínku joinu tak, aby walk_df['latitude'] odpovídal df['latitude'] a walk_df['longitude'] odpovídal df['longitude'].
  • Spoj df a walk_df pomocí join() s výše uvedenou podmínkou a typem joinu left. Výsledný dataframe ulož jako join_df.