MulaiMulai sekarang secara gratis

Memproses data Twitter dalam jumlah besar

Terkadang, data yang harus kita proses berukuran terlalu besar untuk ditangani memori komputer. Ini adalah masalah umum yang dihadapi data scientist. Salah satu solusinya adalah memproses seluruh sumber data secara bertahap per potongan (chunk), alih-alih sekaligus dalam satu waktu.

Dalam latihan ini, Anda akan melakukan hal tersebut. Anda akan memproses file CSV besar berisi data Twitter dengan cara yang sama seperti Anda memproses 'tweets.csv' pada latihan Bringing it all together di kursus prasyarat, tetapi kali ini mengerjakannya dalam potongan berisi 10 entri setiap kali.

Jika Anda tertarik mempelajari cara mengakses data Twitter agar dapat menggunakannya di sistem Anda sendiri, lihat Bagian 2 dari kursus DataCamp tentang Importing Data in Python.

Pustaka pandas telah diimpor sebagai pd dan file 'tweets.csv' ada di direktori aktif Anda untuk digunakan.

Harap diketahui bahwa ini adalah data asli dari Twitter dan karena itu selalu ada risiko mengandung kata-kata kasar atau konten lain yang menyinggung (baik dalam latihan ini maupun latihan berikutnya yang juga menggunakan data Twitter asli).

Latihan ini adalah bagian dari kursus

Kotak Perkakas Python

Lihat Kursus

Petunjuk latihan

  • Inisialisasi dictionary kosong counts_dict untuk menyimpan hasil pemrosesan data Twitter.
  • Lakukan iterasi atas file 'tweets.csv' menggunakan for loop. Gunakan variabel loop chunk dan lakukan iterasi atas pemanggilan pd.read_csv() dengan chunksize sebesar 10.
  • Dalam loop bagian dalam, lakukan iterasi atas kolom 'lang' di chunk menggunakan for loop. Gunakan variabel loop entry.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)
Edit dan Jalankan Kode