1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Weryfikacja załadowania danych

Załóżmy, że co miesiąc otrzymujesz nowy plik. Wiesz, jakiej liczby rekordów i kolumn się spodziewać. W tym ćwiczeniu utworzysz funkcję, która będzie sprawdzać poprawność załadowanego pliku.

Instrukcje

100 XP
  • Utwórz funkcję walidacyjną check_load() z parametrami: df – ramka danych, num_records – oczekiwana liczba rekordów oraz num_columns – oczekiwana liczba kolumn.
  • Używając num_records, sprawdź, czy wejściowa ramka danych df zawiera taką samą liczbę rekordów – skorzystaj z count().
  • Porównaj liczbę kolumn wejściowej ramki danych z num_columns, używając len() na columns.
  • Jeśli oba warunki zwrócą True, wyświetl komunikat Validation Passed.