ComeçarComece de graça

Verificando tipos de dados

Na era dos dados, temos acesso a mais atributos do que nunca. Para lidar com todos eles, vamos construir bastante automação, mas, no mínimo, é necessário que seus tipos de dados estejam corretos. Neste exercício, vamos validar um dicionário de atributos e seus tipos de dados para ver se estão corretos. Esse dicionário está armazenado na variável validation_dict e está disponível no seu workspace.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Usando df, crie uma lista de tuplas de atributo e tipo de dado com dtypes, chamada actual_dtypes_list.
  • Faça um loop por actual_dtypes_list, verificando se os nomes das colunas existem no dicionário de tipos esperados validation_dict.
  • Para as chaves que existem no dicionário, verifique seus tipos de dados e imprima as que correspondem.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# create list of actual dtypes to check
actual_dtypes_list = df.____
print(actual_dtypes_list)

# Iterate through the list of actual dtypes tuples
for attribute_tuple in ____:
  
  # Check if column name is dictionary of expected dtypes
  col_name = attribute_tuple[____]
  if col_name in ____:

    # Compare attribute types
    col_type = attribute_tuple[____]
    if col_type == validation_dict[____]:
      print(col_name + ' has expected dtype.')
Editar e executar o código