1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Ověření načtení dat

Představ si, že každý měsíc dostaneš nový soubor. Víš, kolik záznamů a sloupců má obsahovat. V tomto cvičení vytvoříš funkci, která ověří, zda byl soubor načten správně.

Pokyny

100 XP
  • Vytvoř validační funkci check_load() s parametry df pro datový rámec, num_records pro počet záznamů a num_columns pro počet sloupců.
  • Pomocí num_records over, jestli má vstupní datový rámec df stejný počet záznamů – použij metodu count().
  • Porovnej počet sloupců vstupního datového rámce s hodnotou num_columns pomocí len() na columns.
  • Pokud obě kontroly vrátí True, vypiš Validation Passed