ComeçarComece de graça

Verificando a carga de dados

Vamos supor que, todo mês, você receba um novo arquivo. Você espera um certo número de registros e colunas. Neste exercício, vamos criar uma função que valide o arquivo carregado.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Crie uma função de validação de dados check_load() com os parâmetros df (um dataframe), num_records (número de registros) e num_columns (número de colunas).
  • Usando num_records, crie uma verificação para ver se o dataframe de entrada df tem a mesma quantidade com count().
  • Compare o número de colunas de entrada que o dataframe tem com num_columns usando len() em columns.
  • Se ambas retornarem True, então imprima Validation Passed

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def ____(____, ____, ____):
  # Takes a dataframe and compares record and column counts to input
  # Message to return if the critera below aren't met
  message = 'Validation Failed'
  # Check number of records
  if num_records == df.____():
    # Check number of columns
    if num_columns == ____(df.____):
      # Success message
      message = ____
  return message

# Print the data validation message
print(check_load(df, 5000, 74))
Editar e executar o código