1. Učit se
  2. /
  3. Kurzy
  4. /
  5. ETL a ELT v Pythonu

Connected

cvičení

Ověření dat načtených do databáze Postgres

V tomto cvičení sestavíš datový pipeline od začátku do konce. Pipeline extrahuje výsledky školních testů z JSON souboru a transformuje data tak, aby odstranil řádky s chybějícími hodnotami. Každá škola bude navíc seřazena podle města, ve kterém se nachází, na základě celkového skóre. Nakonec se transformovaná data uloží do databáze Postgres.

Aby ses rychleji rozběhl/a, funkce extract() a transform() jsou již připravené a použité, jak je vidět níže. Také pandas je importovaný jako pd. Hodně zdaru!

# Extrahuj a vyčisti výsledky testů.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

Pokyny 1/2

undefined XP
    1
    2
  • Uprav funkci load() tak, aby zapsala DataFrame clean_data do tabulky scores_by_city v databázi schools.
  • Pokud tabulka scores_by_city již obsahuje data, nahraď je aktualizovanými hodnotami.