Büyük miktarda Twitter verisinden bilgi çıkarma
Önceki egzersizde dosyayı parçalara ayırma işini harika yaptın. Artık çok büyük bir dosyayı işlemen gerektiğinde nasıl başa çıkacağını biliyorsun ve bu gerçekten çok değerli bir beceri!
Bir dosyayı daha küçük ve yönetilebilir parçalarda işlemek iyi bir yöntemdir; ancak aynı işi her seferinde aynı kodu yazıp durmak bir süre sonra oldukça yorucu olabilir. Bu egzersizde, önceki egzersizdeki çalışmanı bir fonksiyon tanımına taşıyarak kodunu daha yeniden kullanılabilir hale getireceksin.
pandas paketi pd olarak içe aktarıldı ve 'tweets.csv' dosyası kullanımın için geçerli dizininde bulunuyor.
Bu egzersiz
Python Araç Kutusu
kursunun bir parçasıdırEgzersiz talimatları
- 3 parametreli
count_entries()fonksiyonunu tanımla. İlk parametre dosya adı içincsv_file, ikincisi parça boyutu içinc_size, sonuncusu sütun adı içincolnameolmalı. csv_fileiçindeki dosya üzerinde birfordöngüsüyle yinele. Döngü değişkeni olarakchunkkullan vepd.read_csv()çağrısı üzerinde yinele;chunksizeparametresinec_sizegeçir.- İç döngüde,
chunkiçindecolnameile verilen sütunda birfordöngüsüyle yinele. Döngü değişkeni olarakentrykullan. count_entries()fonksiyonunu, dosya adı'tweets.csv', parça boyutu10ve sayılacak sütunun adı'lang'olacak şekilde çağır. Çağrının sonucunuresult_countsdeğişkenine ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Define count_entries()
def ____():
"""Return a dictionary with counts of
occurrences as value for each key."""
# Initialize an empty dictionary: counts_dict
counts_dict = {}
# Iterate over the file chunk by chunk
for ____ in ____:
# Iterate over the column in DataFrame
for ____ in ____:
if entry in counts_dict.keys():
counts_dict[entry] += 1
else:
counts_dict[entry] = 1
# Return counts_dict
return counts_dict
# Call count_entries(): result_counts
result_counts = ____
# Print result_counts
print(result_counts)