1. Nauka
  2. /
  3. Kursy
  4. /
  5. Zestaw narzędzi Pythona

Connected

ćwiczenie

Przetwarzanie dużych zbiorów danych z Twittera

Czasami dane, które trzeba przetworzyć, są zbyt duże, by zmieścić je w pamięci komputera. To częsty problem, z którym mierzą się data scientists. Rozwiązaniem jest przetwarzanie danych partiami (ang. chunk by chunk), zamiast wczytywania ich wszystkich naraz.

W tym ćwiczeniu zrobisz dokładnie to. Przetworzysz duży plik CSV z danymi z Twittera – podobnie jak plik 'tweets.csv' w ćwiczeniach Bringing it all together z kursu poprzedzającego ten – tym razem jednak pracując na fragmentach po 10 wierszy.

Jeśli chcesz dowiedzieć się, jak samodzielnie pobierać dane z Twittera, zajrzyj do części 2 kursu DataCamp dotyczącego importowania danych w Pythonie.

Biblioteka pandas została zaimportowana jako pd, a plik 'tweets.csv' znajduje się w twoim bieżącym katalogu.

Pamiętaj, że są to prawdziwe dane z Twittera – istnieje więc ryzyko, że mogą zawierać wulgaryzmy lub inne treści nieodpowiednie (dotyczy to tego ćwiczenia oraz kolejnych ćwiczeń korzystających z rzeczywistych danych z Twittera).

Instrukcje

100 XP
  • Zainicjuj pusty słownik counts_dict, w którym będziesz przechowywać wyniki przetwarzania danych z Twittera.
  • Iteruj po pliku 'tweets.csv' za pomocą pętli for. Użyj zmiennej pętli chunk i iteruj po wywołaniu pd.read_csv() z wartością chunksize równą 10.
  • W wewnętrznej pętli iteruj po kolumnie 'lang' w chunk, używając pętli for ze zmienną entry.