Ottenere valori univoci
A volte, per un'analisi non servono tutti i record, ma i valori univoci di una o più colonne. I duplicati possono essere rimossi dopo aver caricato i dati in un dataframe, ma si può anche farlo in import con la keyword DISTINCT di SQL.
Dato che hpd311calls contiene dati su problemi abitativi, ci aspettiamo che la maggior parte dei record abbia il borough indicato. Verifichiamo questa ipotesi interrogando le combinazioni uniche complaint_type/borough.
pandas è stato importato come pd e il motore del database è stato creato come engine.
Nota: Il correttore SQL è piuttosto rigido riguardo alla posizione delle colonne e si aspetta che i campi vengano selezionati nell'ordine specificato.
Questo esercizio fa parte del corso
Acquisizione dati semplificata con pandas
Istruzioni dell'esercizio
- Crea una query che ottenga i valori
DISTINCTperboroughecomplaint_type(in quest'ordine) dahpd311calls. - Usa
read_sql()per caricare i risultati della query in un dataframe,issues_and_boros. - Stampa il dataframe per verificare l'ipotesi che tutti i problemi, tranne le richieste di letteratura, compaiano con il borough indicato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)