Mengambil nilai unik
Terkadang sebuah analisis tidak memerlukan setiap rekaman, melainkan nilai unik pada satu atau lebih kolom. Nilai duplikat dapat dihapus setelah data dimuat ke dalam dataframe, tetapi hal ini juga bisa dilakukan saat impor menggunakan kata kunci DISTINCT di SQL.
Karena hpd311calls berisi data tentang masalah perumahan, kita mengharapkan sebagian besar rekaman memiliki borough yang tercantum. Mari uji asumsi ini dengan mengkueri kombinasi unik complaint_type/borough.
pandas telah diimpor sebagai pd, dan engine basis data telah dibuat sebagai engine.
Catatan: Pemeriksa SQL cukup ketat terhadap posisi kolom dan mengharapkan field dipilih sesuai urutan yang ditentukan.
Latihan ini adalah bagian dari kursus
Pemasukan Data yang Efisien dengan pandas
Petunjuk latihan
- Buat kueri yang mengambil nilai
DISTINCTuntukboroughdancomplaint_type(dalam urutan tersebut) darihpd311calls. - Gunakan
read_sql()untuk memuat hasil kueri ke sebuah dataframe,issues_and_boros. - Cetak dataframe untuk memeriksa apakah asumsi bahwa semua isu selain permintaan literatur muncul dengan borough yang tercantum itu benar.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create query for unique combinations of borough and complaint_type
query = """
SELECT ____ ____,
____
____ hpd311calls;
"""
# Load results of query to a dataframe
issues_and_boros = ____
# Check assumption about issues and boroughs
print(____)