1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Filtrování obsahu sloupců v Pythonu

Vyzkoušel/a sis různé operace se sloupci DataFramu – teď je čas pracovat s reálnými daty. DataFrame voter_df obsahuje informace o voličích v Radě města Dallas za posledních několik let. Tento zkrácený DataFrame zahrnuje datum hlasování a jméno a pozici voliče. Tvůj manažer tě požádal, abys tato data vyčistil/a, aby je bylo možné později zapojit do požadovaných reportů. Hlavním úkolem je odstranit prázdné záznamy nebo neobvyklé znaky a vrátit konkrétní skupinu voličů, u kterých lze ověřit jejich informace.

Toto je často jeden z prvních kroků při čištění dat – odstranění všeho, co zjevně neodpovídá očekávanému formátu. U tohoto datasetu se podívej na původní data a zjisti, co v sloupci VOTER_NAME vypadá podezřele.

Knihovna pyspark.sql.functions je už naimportovaná pod aliasem F.

Pokyny

100 XP
  • Zobraz unikátní záznamy ve sloupci VOTER_NAME.
  • Vyfiltruj z voter_df záznamy, kde má VOTER_NAME délku 1–20 znaků.
  • Odfiltruj z voter_df záznamy, kde VOTER_NAME obsahuje znak _.
  • Zobraz unikátní záznamy ve sloupci VOTER_NAME znovu.