1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Počet psů na obrázek

Tvým dalším úkolem při budování datového pipeline pro tento dataset je vytvoření několika analytických sloupců. Bylo ti zadáno spočítat počet psů nalezených na každém obrázku na základě sloupce dog_list, který jsi vytvořil/a dříve. Vytvořil/a jsi také typ DogType, který umožní lepší zpracování dat v některých sloupcích.

DataFrame joined_df je k dispozici v podobě, jak jsi ho naposledy definoval/a, a DogType typu StructType je definován. pyspark.sql.functions je dostupný pod aliasem F.

Pokyny

100 XP
  • Vytvoř pythonovou funkci, která rozdělí každý záznam ve sloupci dog_list na jeho jednotlivé části. Nezapomeň převést řetězce na odpovídající typy – jinak DogType nebude správně fungovat.
  • Na základě této funkce vytvoř UDF.
  • Pomocí UDF vytvoř nový sloupec s názvem dogs.
  • Zobraz počet psů v novém sloupci pro prvních 10 řádků.