1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Parsování dat o psech

Počáteční datovou sadu jsi už pěkně pročistil/a, ale teď je potřeba data trochu hlouběji analyzovat. Objevilo se několik otázek týkajících se druhu psů na obrázcích i dalších detailů k nim. Aby bylo možné na tyto otázky odpovědět, je nutné data převést do konkrétního datového typu. Nejdřív ale musíš vytvořit schéma, které bude reprezentovat informace o psech.

DataFrame joined_df je ve stavu, v jakém jsi ho naposledy definoval/a, a vše z pyspark.sql.types je již naimportováno.

Pokyny

100 XP
  • Vyber sloupec s detaily o psech z DataFramu a zobraz prvních 10 řádků bez zkrácení.
  • Vytvoř nové schéma stejným způsobem jako dříve, s názvy polí breed, start_x, start_y, end_x a end_y. Nezapomeň každému poli přiřadit správný datový typ (všechny číselné hodnoty jsou celá čísla).