1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Další triky s ID

Jakmile jednou navrhneš Spark proces, budeš ho pravděpodobně chtít spouštět opakovaně. Podle potřeby můžeš nastavit, od jaké hodnoty mají ID začínat, aby se nepřekrývala s výsledky předchozích běhů Spark úlohy. Toto chování je podobné tomu, jak fungují ID v relačních databázích. Tvým úkolem je zajistit, aby ID generovaná v měsíční Spark úloze začínala od nejvyšší hodnoty z předchozího měsíce.

V pracovním prostředí máš k dispozici Spark session spark a dva DataFramy: voter_df_march a voter_df_april. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Pokyny

100 XP
  • Zjisti nejvyšší hodnotu ROW_ID v voter_df_march a ulož ji do proměnné previous_max_ID. Pomocí .rdd.max()[0] získáš maximální ID.
  • Přidej sloupec ROW_ID do voter_df_april tak, aby začínal od hodnoty previous_max_ID + 1.
  • Zobraz hodnoty ROW_ID z obou DataFramů a porovnej je.