Verificando a carga de dados
Vamos supor que, todo mês, você receba um novo arquivo. Você espera um certo número de registros e colunas. Neste exercício, vamos criar uma função que valide o arquivo carregado.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Crie uma função de validação de dados
check_load()com os parâmetrosdf(um dataframe),num_records(número de registros) enum_columns(número de colunas). - Usando
num_records, crie uma verificação para ver se o dataframe de entradadftem a mesma quantidade comcount(). - Compare o número de colunas de entrada que o dataframe tem com
num_columnsusandolen()emcolumns. - Se ambas retornarem
True, então imprimaValidation Passed
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def ____(____, ____, ____):
# Takes a dataframe and compares record and column counts to input
# Message to return if the critera below aren't met
message = 'Validation Failed'
# Check number of records
if num_records == df.____():
# Check number of columns
if num_columns == ____(df.____):
# Success message
message = ____
return message
# Print the data validation message
print(check_load(df, 5000, 74))