Obtendo valores distintos
Às vezes, uma análise não precisa de todos os registros, mas sim de valores únicos em uma ou mais colunas. Valores duplicados podem ser removidos depois de carregar os dados em um dataframe, mas isso também pode ser feito na importação com a palavra-chave DISTINCT do SQL.
Como hpd311calls contém dados sobre problemas de moradia, é de se esperar que a maioria dos registros tenha um bairro informado. Vamos testar essa suposição consultando combinações únicas de complaint_type/borough.
pandas já foi importado como pd, e o mecanismo do banco de dados foi criado como engine.
Observação: O verificador de SQL é bem exigente quanto à posição das colunas e espera que os campos sejam selecionados na ordem especificada.
Este exercício faz parte do curso
Ingestão de dados simplificada com pandas
Instruções do exercício
- Crie uma consulta que obtenha valores
DISTINCTparaboroughecomplaint_type(nessa ordem) a partir dehpd311calls. - Use
read_sql()para carregar os resultados da consulta em um dataframe,issues_and_boros. - Imprima o dataframe para verificar se a suposição de que todos os problemas, exceto solicitações de literatura, aparecem com os bairros informados é válida.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)