Wyodrębnianie informacji z dużych zbiorów danych z Twitteru

Świetna robota z dzieleniem pliku na fragmenty w poprzednim ćwiczeniu! Wiesz już, jak radzić sobie z sytuacjami, w których trzeba przetworzyć bardzo duży plik – to naprawdę przydatna umiejętność.

Dobrze jest umieć przetwarzać plik w mniejszych, łatwiejszych do obsługi fragmentach, jednak ciągłe przepisywanie tego samego kodu może być uciążliwe. W tym ćwiczeniu sprawisz, że twój kod będzie bardziej wielokrotnego użytku, umieszczając pracę z poprzedniego ćwiczenia w definicji funkcji.

Pakiet pandas został zaimportowany jako pd, a plik 'tweets.csv' znajduje się w twoim bieżącym katalogu.

Zdefiniuj funkcję count_entries() przyjmującą 3 parametry. Pierwszy parametr to csv_file dla nazwy pliku, drugi to c_size dla rozmiaru fragmentu, a ostatni to colname dla nazwy kolumny.
Iteruj po pliku csv_file za pomocą pętli for. Użyj zmiennej pętli chunk i iteruj po wywołaniu pd.read_csv(), przekazując c_size do chunksize.
W wewnętrznej pętli iteruj po kolumnie podanej w colname wewnątrz chunk, używając pętli for. Użyj zmiennej pętli entry.
Wywołaj funkcję count_entries(), przekazując jej nazwę pliku 'tweets.csv', rozmiar fragmentów 10 i nazwę kolumny do zliczenia 'lang'. Wynik wywołania przypisz do zmiennej result_counts.

ćwiczenie

Wyodrębnianie informacji z dużych zbiorów danych z Twitteru

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie