Büyük miktarda Twitter verisini işleme

Bazen işlememiz gereken veriler, bir bilgisayarın belleğinin kaldıramayacağı boyutlara ulaşır. Bu, veri bilimcilerin sıkça karşılaştığı bir sorundur. Bunun bir çözümü, tüm veri kaynağını tek seferde değil, parça parça işlemektir.

Bu egzersizde tam olarak bunu yapacaksın. Önceki kursun Hepsini bir araya getirme egzersizlerinde 'tweets.csv' dosyasını işlediğin yöntemle, bu kez dosyayı her seferinde 10 kayıttan oluşan parçalar hâlinde işleyeceksin.

Twitter verilerine nasıl erişeceğini öğrenip kendi sisteminde çalışmak istersen, DataCamp'in Python'da Veri İçe Aktarma kursunun Bölüm 2'sine göz at.

pandas paketi pd olarak içe aktarılmıştır ve 'tweets.csv' dosyası kullanımın için mevcut dizininde bulunuyor.

Bunun gerçek Twitter verisi olduğunu ve bu nedenle küfür veya başka rahatsız edici içerik barındırma riski bulunduğunu unutma (bu egzersizde ve gerçek Twitter verisi kullanan sonraki egzersizlerde).

Bu egzersiz

Python Araç Kutusu

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Twitter verisini işlerken elde edilen sonuçları saklamak için boş bir sözlük counts_dict başlat.
'tweets.csv' dosyası üzerinde bir for döngüsüyle yinele. Döngü değişkeni olarak chunk kullan ve pd.read_csv() çağrısı üzerinde chunksize 10 olacak şekilde yinele.
İç döngüde, chunk içindeki 'lang' sütununda bir for döngüsüyle yinele. Döngü değişkeni olarak entry kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Initialize an empty dictionary: counts_dict


# Iterate over the file chunk by chunk
for ____ in ____:

    # Iterate over the column in DataFrame
    for ____ in ____:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

Kodu Düzenle ve Çalıştır