1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

ID s různým počtem oddílů

Právě ses naučil/a přidávat pole s ID do DataFramu. Teď se podívej, co se stane, když to samé uděláš na DataFramech s různým počtem oddílů.

Počet oddílů zjistíš pomocí metody .rdd.getNumPartitions() zavolané na DataFrame.

V pracovním prostředí máš k dispozici session spark a dva DataFramy: voter_df a voter_df_single. Postupuj podle pokynů a zjisti, v čem se tyto DataFramy liší. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Pokyny

100 XP
  • Vypiš počet oddílů každého DataFramu.
  • Přidej do každého DataFramu pole ROW_ID.
  • Zobraz prvních 10 ID z každého DataFramu.