Přidání pole s ID

Při práci s daty se občas hodí přistupovat jen k určitým polím a provádět různé operace. V tomto cvičení najdi všechna unikátní jména voličů z DataFrame a přidej jim jedinečné ID. Měj na paměti, že ID v Sparku se přiřazují na základě partition DataFrame – výsledné hodnoty ID tedy mohou být výrazně vyšší než skutečný počet řádků.

Díky líznému (lazy) zpracování v Sparku se ID negenerují, dokud není spuštěna akce, a mohou být do jisté míry náhodná v závislosti na velikosti datasetu.

V tvém pracovním prostředí je k dispozici session spark a Spark DataFrame df načtený ze souboru DallasCouncilVotes.csv.gz. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Vyber unikátní záznamy ze sloupce VOTER NAME a ulož je do nového DataFrame s názvem voter_df.
Spočítej počet řádků v DataFrame voter_df.
Přidej sloupec ROW_ID pomocí příslušné funkce Sparku.
Zobraz 10 řádků s nejvyššími hodnotami ROW_ID.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení