Validação de dados carregados em um banco de dados Postgres
Neste exercício, você finalmente conseguirá criar um pipeline de dados de ponta a ponta. Esse pipeline extrairá as pontuações dos testes escolares de um arquivo JSON e transformará os dados para eliminar as linhas com pontuações ausentes. Além disso, cada um será classificado pela cidade em que está localizado, com base em suas pontuações totais. Por fim, o conjunto de dados transformado será armazenado em um banco de dados Postgres.
Para que você tenha uma ideia inicial, as funções extract()
e transform()
foram criadas e usadas conforme mostrado abaixo. Além disso, o site pandas
foi importado como pd
. Boa sorte!
# Extract and clean the testing scores.
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)
Este exercício faz parte do curso
ETL e ELT em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
def load(clean_data, con_engine):
# Store the data in the schools database
clean_data.____(
name="scores_by_city",
con=con_engine,
____="____", # Make sure to replace existing data
index=True,
index_label="school_id"
)