Verificando tipos de dados
Na era dos dados, temos acesso a mais atributos do que nunca. Para lidar com todos eles, vamos construir bastante automação, mas, no mínimo, é necessário que seus tipos de dados estejam corretos. Neste exercício, vamos validar um dicionário de atributos e seus tipos de dados para ver se estão corretos. Esse dicionário está armazenado na variável validation_dict e está disponível no seu workspace.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Usando
df, crie uma lista de tuplas de atributo e tipo de dado comdtypes, chamadaactual_dtypes_list. - Faça um loop por
actual_dtypes_list, verificando se os nomes das colunas existem no dicionário de tipos esperadosvalidation_dict. - Para as chaves que existem no dicionário, verifique seus tipos de dados e imprima as que correspondem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# create list of actual dtypes to check
actual_dtypes_list = df.____
print(actual_dtypes_list)
# Iterate through the list of actual dtypes tuples
for attribute_tuple in ____:
# Check if column name is dictionary of expected dtypes
col_name = attribute_tuple[____]
if col_name in ____:
# Compare attribute types
col_type = attribute_tuple[____]
if col_type == validation_dict[____]:
print(col_name + ' has expected dtype.')