Обробка великих обсягів даних Twitter

Іноді дані, які потрібно опрацювати, настільки великі, що пам'яті комп'ютера не вистачає. Це поширена проблема для фахівців із даних. Рішення — опрацьовувати джерело даних частинами (фрагментами), а не намагатися завантажити все одразу.

У цій вправі ви саме так і зробите. Ви опрацюєте великий CSV‑файл із даними Twitter так само, як обробляли 'tweets.csv' у вправах Підсумуємо все разом у попередньому курсі, але цього разу працюватимете з ним порціями по 10 записів за раз.

Якщо вам цікаво, як отримувати дані з Twitter, щоб працювати з ними на власній системі, перегляньте Частину 2 курсу DataCamp з імпорту даних у Python.

Пакет pandas вже імпортовано як pd, а файл 'tweets.csv' розміщений у вашому поточному каталозі.

Зверніть увагу: це реальні дані з Twitter, тож завжди існує ризик, що вони можуть містити ненормативну лексику або інший образливий контент (у цій вправі та будь‑яких наступних вправах, де також використовуються реальні дані Twitter).

Ініціалізуйте порожній словник counts_dict для збереження результатів обробки даних Twitter.
Проітеруйтеся файлом 'tweets.csv', використовуючи цикл for. Використайте змінну циклу chunk і ітеруйтеся викликом pd.read_csv() із параметром chunksize рівним 10.
У внутрішньому циклі проітеруйтеся стовпцем 'lang' у chunk, використовуючи цикл for. Використайте змінну циклу entry.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа