1. Nauka
  2. /
  3. Kursy
  4. /
  5. Zestaw narzędzi Pythona

Connected

ćwiczenie

Wyodrębnianie informacji z dużych zbiorów danych z Twitteru

Świetna robota z dzieleniem pliku na fragmenty w poprzednim ćwiczeniu! Wiesz już, jak radzić sobie z sytuacjami, w których trzeba przetworzyć bardzo duży plik – to naprawdę przydatna umiejętność.

Dobrze jest umieć przetwarzać plik w mniejszych, łatwiejszych do obsługi fragmentach, jednak ciągłe przepisywanie tego samego kodu może być uciążliwe. W tym ćwiczeniu sprawisz, że twój kod będzie bardziej wielokrotnego użytku, umieszczając pracę z poprzedniego ćwiczenia w definicji funkcji.

Pakiet pandas został zaimportowany jako pd, a plik 'tweets.csv' znajduje się w twoim bieżącym katalogu.

Instrukcje

100 XP
  • Zdefiniuj funkcję count_entries() przyjmującą 3 parametry. Pierwszy parametr to csv_file dla nazwy pliku, drugi to c_size dla rozmiaru fragmentu, a ostatni to colname dla nazwy kolumny.
  • Iteruj po pliku csv_file za pomocą pętli for. Użyj zmiennej pętli chunk i iteruj po wywołaniu pd.read_csv(), przekazując c_size do chunksize.
  • W wewnętrznej pętli iteruj po kolumnie podanej w colname wewnątrz chunk, używając pętli for. Użyj zmiennej pętli entry.
  • Wywołaj funkcję count_entries(), przekazując jej nazwę pliku 'tweets.csv', rozmiar fragmentów 10 i nazwę kolumny do zliczenia 'lang'. Wynik wywołania przypisz do zmiennej result_counts.