1. Learn
  2. /
  3. Курси
  4. /
  5. Набір інструментів Python

Connected

вправа

Обробка великих обсягів даних Twitter

Іноді дані, які потрібно опрацювати, настільки великі, що пам'яті комп'ютера не вистачає. Це поширена проблема для фахівців із даних. Рішення — опрацьовувати джерело даних частинами (фрагментами), а не намагатися завантажити все одразу.

У цій вправі ви саме так і зробите. Ви опрацюєте великий CSV‑файл із даними Twitter так само, як обробляли 'tweets.csv' у вправах Підсумуємо все разом у попередньому курсі, але цього разу працюватимете з ним порціями по 10 записів за раз.

Якщо вам цікаво, як отримувати дані з Twitter, щоб працювати з ними на власній системі, перегляньте Частину 2 курсу DataCamp з імпорту даних у Python.

Пакет pandas вже імпортовано як pd, а файл 'tweets.csv' розміщений у вашому поточному каталозі.

Зверніть увагу: це реальні дані з Twitter, тож завжди існує ризик, що вони можуть містити ненормативну лексику або інший образливий контент (у цій вправі та будь‑яких наступних вправах, де також використовуються реальні дані Twitter).

Інструкції

100 XP
  • Ініціалізуйте порожній словник counts_dict для збереження результатів обробки даних Twitter.
  • Проітеруйтеся файлом 'tweets.csv', використовуючи цикл for. Використайте змінну циклу chunk і ітеруйтеся викликом pd.read_csv() із параметром chunksize рівним 10.
  • У внутрішньому циклі проітеруйтеся стовпцем 'lang' у chunk, використовуючи цикл for. Використайте змінну циклу entry.