Memproses data Twitter dalam jumlah besar
Terkadang, data yang harus kita proses berukuran terlalu besar untuk ditangani memori komputer. Ini adalah masalah umum yang dihadapi data scientist. Salah satu solusinya adalah memproses seluruh sumber data secara bertahap per potongan (chunk), alih-alih sekaligus dalam satu waktu.
Dalam latihan ini, Anda akan melakukan hal tersebut. Anda akan memproses file CSV besar berisi data Twitter dengan cara yang sama seperti Anda memproses 'tweets.csv' pada latihan Bringing it all together di kursus prasyarat, tetapi kali ini mengerjakannya dalam potongan berisi 10 entri setiap kali.
Jika Anda tertarik mempelajari cara mengakses data Twitter agar dapat menggunakannya di sistem Anda sendiri, lihat Bagian 2 dari kursus DataCamp tentang Importing Data in Python.
Pustaka pandas telah diimpor sebagai pd dan file 'tweets.csv' ada di direktori aktif Anda untuk digunakan.
Harap diketahui bahwa ini adalah data asli dari Twitter dan karena itu selalu ada risiko mengandung kata-kata kasar atau konten lain yang menyinggung (baik dalam latihan ini maupun latihan berikutnya yang juga menggunakan data Twitter asli).
Latihan ini adalah bagian dari kursus
Kotak Perkakas Python
Petunjuk latihan
- Inisialisasi dictionary kosong
counts_dictuntuk menyimpan hasil pemrosesan data Twitter. - Lakukan iterasi atas file
'tweets.csv'menggunakanforloop. Gunakan variabel loopchunkdan lakukan iterasi atas pemanggilanpd.read_csv()denganchunksizesebesar 10. - Dalam loop bagian dalam, lakukan iterasi atas kolom
'lang'dichunkmenggunakanforloop. Gunakan variabel loopentry.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)