1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Přidání pole s ID

Při práci s daty se občas hodí přistupovat jen k určitým polím a provádět různé operace. V tomto cvičení najdi všechna unikátní jména voličů z DataFrame a přidej jim jedinečné ID. Měj na paměti, že ID v Sparku se přiřazují na základě partition DataFrame – výsledné hodnoty ID tedy mohou být výrazně vyšší než skutečný počet řádků.

Díky líznému (lazy) zpracování v Sparku se ID negenerují, dokud není spuštěna akce, a mohou být do jisté míry náhodná v závislosti na velikosti datasetu.

V tvém pracovním prostředí je k dispozici session spark a Spark DataFrame df načtený ze souboru DallasCouncilVotes.csv.gz. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Pokyny

100 XP
  • Vyber unikátní záznamy ze sloupce VOTER NAME a ulož je do nového DataFrame s názvem voter_df.
  • Spočítej počet řádků v DataFrame voter_df.
  • Přidej sloupec ROW_ID pomocí příslušné funkce Sparku.
  • Zobraz 10 řádků s nejvyššími hodnotami ROW_ID.