Büyük miktarda Twitter verisini işleme
Bazen işlememiz gereken veriler, bir bilgisayarın belleğinin kaldıramayacağı boyutlara ulaşır. Bu, veri bilimcilerin sıkça karşılaştığı bir sorundur. Bunun bir çözümü, tüm veri kaynağını tek seferde değil, parça parça işlemektir.
Bu egzersizde tam olarak bunu yapacaksın. Önceki kursun Hepsini bir araya getirme egzersizlerinde 'tweets.csv' dosyasını işlediğin yöntemle, bu kez dosyayı her seferinde 10 kayıttan oluşan parçalar hâlinde işleyeceksin.
Twitter verilerine nasıl erişeceğini öğrenip kendi sisteminde çalışmak istersen, DataCamp'in Python'da Veri İçe Aktarma kursunun Bölüm 2'sine göz at.
pandas paketi pd olarak içe aktarılmıştır ve 'tweets.csv' dosyası kullanımın için mevcut dizininde bulunuyor.
Bunun gerçek Twitter verisi olduğunu ve bu nedenle küfür veya başka rahatsız edici içerik barındırma riski bulunduğunu unutma (bu egzersizde ve gerçek Twitter verisi kullanan sonraki egzersizlerde).
Bu egzersiz
Python Araç Kutusu
kursunun bir parçasıdırEgzersiz talimatları
- Twitter verisini işlerken elde edilen sonuçları saklamak için boş bir sözlük
counts_dictbaşlat. 'tweets.csv'dosyası üzerinde birfordöngüsüyle yinele. Döngü değişkeni olarakchunkkullan vepd.read_csv()çağrısı üzerindechunksize10 olacak şekilde yinele.- İç döngüde,
chunkiçindeki'lang'sütununda birfordöngüsüyle yinele. Döngü değişkeni olarakentrykullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Initialize an empty dictionary: counts_dict
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Print the populated dictionary
print(counts_dict)