1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

When / Otherwise

Tento úkol je podobný předchozímu, ale tentokrát chceš přidat různé hodnoty podle pozice voliče. Uprav DataFrame voter_df tak, aby se ke každému členovi označenému jako Councilmember přidalo náhodné číslo. Pro Mayor použij hodnotu 2 a pro jakoukoli jinou pozici hodnotu 0.

DataFrame voter_df je k dispozici. Knihovna pyspark.sql.functions je dostupná pod aliasem F.. Náhodnou hodnotu vygeneruješ pomocí F.rand().

Pokyny

100 XP
  • Přidej do voter_df sloupec random_val, který bude obsahovat výsledek metody F.rand() pro každého voliče s titulem Councilmember. Pro Mayor nastav random_val na hodnotu 2. Pro všechny ostatní tituly nastav hodnotu 0.
  • Zobraz několik řádků DataFramu a ověř, jestli klauzule fungovaly správně.
  • Pomocí klauzule .filter vyhledej řádky s hodnotou 0 ve sloupci random_val.