ComeçarComece de graça

Obtendo valores distintos

Às vezes, uma análise não precisa de todos os registros, mas sim de valores únicos em uma ou mais colunas. Valores duplicados podem ser removidos depois de carregar os dados em um dataframe, mas isso também pode ser feito na importação com a palavra-chave DISTINCT do SQL.

Como hpd311calls contém dados sobre problemas de moradia, é de se esperar que a maioria dos registros tenha um bairro informado. Vamos testar essa suposição consultando combinações únicas de complaint_type/borough.

pandas já foi importado como pd, e o mecanismo do banco de dados foi criado como engine.

Observação: O verificador de SQL é bem exigente quanto à posição das colunas e espera que os campos sejam selecionados na ordem especificada.

Este exercício faz parte do curso

Ingestão de dados simplificada com pandas

Ver curso

Instruções do exercício

  • Crie uma consulta que obtenha valores DISTINCT para borough e complaint_type (nessa ordem) a partir de hpd311calls.
  • Use read_sql() para carregar os resultados da consulta em um dataframe, issues_and_boros.
  • Imprima o dataframe para verificar se a suposição de que todos os problemas, exceto solicitações de literatura, aparecem com os bairros informados é válida.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____, 
       ____
  ____ hpd311calls;
"""

# Load results of query to a dataframe
issues_and_boros = ____

# Check assumption about issues and boroughs
print(____)
Editar e executar o código