Memroses data per potongan (1)

Terkadang, sumber data berukuran sangat besar sehingga menyimpan seluruh himpunan data di memori menjadi terlalu membebani sumber daya. Dalam latihan ini, Anda akan memroses 1000 baris pertama dari sebuah file baris demi baris, untuk membuat sebuah dictionary yang berisi jumlah kemunculan setiap negara pada sebuah kolom dalam himpunan data.

File csv 'world_dev_ind.csv' ada di direktori kerja Anda dan siap digunakan. Untuk mulai, Anda perlu membuka koneksi ke file ini menggunakan yang disebut sebagai context manager. Sebagai contoh, perintah with open('datacamp.csv') as datacamp mengikat file csv 'datacamp.csv' sebagai datacamp di dalam context manager. Di sini, pernyataan with adalah context manager, dan tujuannya adalah memastikan sumber daya dialokasikan secara efisien ketika membuka koneksi ke sebuah file.

Jika Anda ingin mempelajari lebih lanjut tentang context manager, lihat kursus DataCamp tentang Importing Data in Python.

Latihan ini merupakan bagian dari kursus

Kotak Perkakas Python

Instruksi latihan

Gunakan open() untuk mengikat file csv 'world_dev_ind.csv' sebagai file di dalam context manager.
Lengkapi for loop agar beriterasi 1000 kali untuk menjalankan isi loop dan hanya memroses 1000 baris pertama data dari file.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Open a connection to the file
with ____ as ____:

    # Skip the column names
    file.readline()

    # Initialize an empty dictionary: counts_dict
    counts_dict = {}

    # Process only the first 1000 rows
    for j in ____:

        # Split the current line into a list: line
        line = file.readline().split(',')

        # Get the value for the first column: first_col
        first_col = line[0]

        # If the column value is in the dict, increment its value
        if first_col in counts_dict.keys():
            counts_dict[first_col] += 1

        # Else, add to the dict and set value to 1
        else:
            counts_dict[first_col] = 1

# Print the resulting dictionary
print(counts_dict)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Kotak Perkakas Python

SkillTag.level.beginnerSkillTag.label

4.8+

Mulai Kursus Gratis

Anda akan mempelajari segala hal tentang iterator dan iterable, yang sudah pernah Anda gunakan saat menulis perulangan for. Anda akan mempelajari beberapa fungsi praktis yang memungkinkan Anda bekerja efektif dengan iterator. Anda akan menutup bab ini dengan studi kasus yang relevan dengan dunia data science dan penanganan data berukuran besar—dalam hal ini, data dari Twitter yang akan Anda muat per potongan menggunakan iterator.

Exercise 1: Pengantar iterator Exercise 2: Iterator vs. Iterable Exercise 3: Melakukan iterasi atas iterable (1)Exercise 4: Melakukan iterasi atas iterable (2)Exercise 5: Iterator sebagai argumen fungsi Exercise 6: Bermain dengan iterator Exercise 7: Menggunakan enumerate Exercise 8: Menggunakan zip Exercise 9: Menggunakan * dan zip untuk 'membuka zip'Exercise 10: Menggunakan iterator untuk memuat berkas besar ke dalam memori Exercise 11: Memproses data Twitter dalam jumlah besar Exercise 12: Mengekstrak informasi dari data Twitter berukuran besar Exercise 13: Selamat!

Di bab ini, Anda akan membangun pemahaman tentang iterator dan diperkenalkan pada list comprehension, yang memungkinkan Anda membuat daftar yang rumit—dan daftar berisi daftar—dalam satu baris kode! List comprehension dapat menyederhanakan kode Anda secara drastis dan membuatnya lebih efisien, serta akan menjadi bagian penting dari kotak perkakas Python Anda. Selanjutnya, Anda akan mempelajari generator, yang sangat membantu saat bekerja dengan deret data besar yang mungkin tidak ingin Anda simpan di memori, melainkan dibuat secara langsung saat dibutuhkan.

Exercise 1: List comprehension Exercise 2: Tulis list comprehension dasar Exercise 3: List comprehension pada iterable Exercise 4: Menulis list comprehension Exercise 5: List comprehension bersarang Exercise 6: Pemahaman tingkat lanjut Exercise 7: Menggunakan kondisional dalam komprehensi (1)Exercise 8: Menggunakan kondisional dalam comprehension (2)Exercise 9: Dict comprehension Exercise 10: Pengantar ekspresi generator Exercise 11: List comprehension vs. generator Exercise 12: Tulis ekspresi generator Anda sendiri Exercise 13: Mengubah keluaran dalam ekspresi generator Exercise 14: Bangun sebuah generator Exercise 15: Merangkum list comprehension dan generator.Exercise 16: List comprehension untuk data bertanda waktu Exercise 17: List comprehension berkondisi untuk data bertanda waktu

Bab ini memungkinkan Anda menerapkan keterampilan yang baru diperoleh untuk membersihkan dan mengekstrak informasi bermakna dari himpunan data dunia nyata—World Development Indicators milik Bank Dunia. Anda akan berkesempatan menulis fungsi dan list comprehension Anda sendiri saat bekerja dengan iterator dan generator untuk memantapkan kemampuan Python Anda.

Exercise 1: Selamat datang di studi kasus!Exercise 2: Meng-zip kamus Exercise 3: Menulis fungsi untuk membantu Anda Exercise 4: Menggunakan list comprehension Exercise 5: Mengubah semuanya menjadi DataFrame Exercise 6: Menggunakan generator Python untuk streaming data Exercise 7: Memroses data per potongan (1)

Latihan Saat Ini

Exercise 8: Menulis generator untuk memuat data per bagian (2)Exercise 9: Menulis generator untuk memuat data per bagian (3)Exercise 10: Menggunakan iterator read_csv dari pandas untuk streaming data Exercise 11: Menulis iterator untuk memuat data per potongan (1)Exercise 12: Menulis iterator untuk memuat data per potongan (2)Exercise 13: Menulis iterator untuk memuat data per potongan (3)Exercise 14: Menulis iterator untuk memuat data per bagian (4)Exercise 15: Menulis iterator untuk memuat data per bagian (5)Exercise 16: Pemikiran akhir