Další triky s ID

Jakmile jednou navrhneš Spark proces, budeš ho pravděpodobně chtít spouštět opakovaně. Podle potřeby můžeš nastavit, od jaké hodnoty mají ID začínat, aby se nepřekrývala s výsledky předchozích běhů Spark úlohy. Toto chování je podobné tomu, jak fungují ID v relačních databázích. Tvým úkolem je zajistit, aby ID generovaná v měsíční Spark úloze začínala od nejvyšší hodnoty z předchozího měsíce.

V pracovním prostředí máš k dispozici Spark session spark a dva DataFramy: voter_df_march a voter_df_april. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Zjisti nejvyšší hodnotu ROW_ID v voter_df_march a ulož ji do proměnné previous_max_ID. Pomocí .rdd.max()[0] získáš maximální ID.
Přidej sloupec ROW_ID do voter_df_april tak, aby začínal od hodnoty previous_max_ID + 1.
Zobraz hodnoty ROW_ID z obou DataFramů a porovnej je.

cvičení

Další triky s ID

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení