Obtener valores distintos
A veces, un análisis no necesita todos los registros, sino valores únicos en una o más columnas. Los duplicados se pueden eliminar tras cargar los datos en un dataframe, pero también se puede hacer en la importación con la palabra clave DISTINCT de SQL.
Como hpd311calls contiene datos sobre problemas de vivienda, esperaríamos que la mayoría de los registros tengan indicado un distrito (borough). Vamos a comprobar esta suposición consultando combinaciones únicas de complaint_type/borough.
pandas se ha importado como pd, y el motor de base de datos se ha creado como engine.
Nota: El comprobador de SQL es bastante estricto con la posición de las columnas y espera que los campos se seleccionen en el orden especificado.
Este ejercicio forma parte del curso
Ingesta de datos eficiente con pandas
Instrucciones del ejercicio
- Crea una consulta que obtenga valores
DISTINCTparaboroughycomplaint_type(en ese orden) dehpd311calls. - Usa
read_sql()para cargar los resultados de la consulta en un dataframe,issues_and_boros. - Imprime el dataframe para comprobar si la suposición de que todos los problemas, excepto las solicitudes de material bibliográfico, aparecen con el distrito indicado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)