Obtener valores distintos

A veces, un análisis no necesita todos los registros, sino valores únicos en una o más columnas. Los duplicados se pueden eliminar tras cargar los datos en un dataframe, pero también se puede hacer en la importación con la palabra clave DISTINCT de SQL.

Como hpd311calls contiene datos sobre problemas de vivienda, esperaríamos que la mayoría de los registros tengan indicado un distrito (borough). Vamos a comprobar esta suposición consultando combinaciones únicas de complaint_type/borough.

pandas se ha importado como pd, y el motor de base de datos se ha creado como engine.

Nota: El comprobador de SQL es bastante estricto con la posición de las columnas y espera que los campos se seleccionen en el orden especificado.

Este ejercicio forma parte del curso

Ingesta de datos eficiente con pandas

Ver curso

Instrucciones del ejercicio

Crea una consulta que obtenga valores DISTINCT para borough y complaint_type (en ese orden) de hpd311calls.
Usa read_sql() para cargar los resultados de la consulta en un dataframe, issues_and_boros.
Imprime el dataframe para comprobar si la suposición de que todos los problemas, excepto las solicitudes de material bibliográfico, aparecen con el distrito indicado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____, 
       ____
  ____ hpd311calls;
"""

# Load results of query to a dataframe
issues_and_boros = ____

# Check assumption about issues and boroughs
print(____)

Editar y ejecutar código