Büyük miktarda Twitter verisinden bilgi çıkarma

Önceki egzersizde dosyayı parçalara ayırma işini harika yaptın. Artık çok büyük bir dosyayı işlemen gerektiğinde nasıl başa çıkacağını biliyorsun ve bu gerçekten çok değerli bir beceri!

Bir dosyayı daha küçük ve yönetilebilir parçalarda işlemek iyi bir yöntemdir; ancak aynı işi her seferinde aynı kodu yazıp durmak bir süre sonra oldukça yorucu olabilir. Bu egzersizde, önceki egzersizdeki çalışmanı bir fonksiyon tanımına taşıyarak kodunu daha yeniden kullanılabilir hale getireceksin.

pandas paketi pd olarak içe aktarıldı ve 'tweets.csv' dosyası kullanımın için geçerli dizininde bulunuyor.

Bu egzersiz, kursun bir parçasıdır

Python Araç Kutusu

Kursa Göz Atın

Egzersiz talimatları

3 parametreli count_entries() fonksiyonunu tanımla. İlk parametre dosya adı için csv_file, ikincisi parça boyutu için c_size, sonuncusu sütun adı için colname olmalı.
csv_file içindeki dosya üzerinde bir for döngüsüyle yinele. Döngü değişkeni olarak chunk kullan ve pd.read_csv() çağrısı üzerinde yinele; chunksize parametresine c_size geçir.
İç döngüde, chunk içinde colname ile verilen sütunda bir for döngüsüyle yinele. Döngü değişkeni olarak entry kullan.
count_entries() fonksiyonunu, dosya adı 'tweets.csv', parça boyutu 10 ve sayılacak sütunun adı 'lang' olacak şekilde çağır. Çağrının sonucunu result_counts değişkenine ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Define count_entries()
def ____():
    """Return a dictionary with counts of
    occurrences as value for each key."""
    
    # Initialize an empty dictionary: counts_dict
    counts_dict = {}

    # Iterate over the file chunk by chunk
    for ____ in ____:

        # Iterate over the column in DataFrame
        for ____ in ____:
            if entry in counts_dict.keys():
                counts_dict[entry] += 1
            else:
                counts_dict[entry] = 1

    # Return counts_dict
    return counts_dict

# Call count_entries(): result_counts
result_counts = ____

# Print result_counts
print(result_counts)

Kodu Düzenle ve Çalıştır