1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Parsowanie danych o psach

Udało ci się wyczyścić sporo danych w początkowym zbiorze – teraz czas przeanalizować je głębiej. Pojawiło się kilka pytań dotyczących ras psów widocznych na zdjęciach oraz szczegółów samych obrazów. Żeby na nie odpowiedzieć, musisz przetworzyć dane do określonego formatu. Zanim to zrobisz, utwórz schemat reprezentujący szczegóły dotyczące psów.

DataFrame joined_df jest taki, jakim go ostatnio zdefiniowano, a wszystkie typy z pyspark.sql.types zostały już zaimportowane.

Instrukcje

100 XP
  • Wybierz kolumnę reprezentującą szczegóły o psach z DataFrame i wyświetl pierwsze 10 wierszy bez obcinania treści.
  • Utwórz nowy schemat, tak jak robiłeś to wcześniej, używając nazw breed, start_x, start_y, end_x i end_y. Pamiętaj, aby dla każdego pola określić właściwy typ danych (wszystkie wartości liczbowe są liczbami całkowitymi).