Обработка больших объёмов данных из Twitter

Иногда объём данных, которые нужно обработать, превышает возможности оперативной памяти компьютера. Это распространённая проблема в работе специалистов по данным. Один из способов её решить — обрабатывать источник данных не целиком, а по частям (чанками).

В этом упражнении вы сделаете именно это. Вы обработаете большой CSV-файл с данными из Twitter так же, как обрабатывали 'tweets.csv' в упражнениях Bringing it all together из предыдущего курса, но на этот раз — порциями по 10 записей за раз.

Если вас интересует, как получить доступ к данным Twitter для работы на собственном компьютере, обратитесь к части 2 курса DataCamp по импорту данных в Python.

Библиотека pandas импортирована как pd, а файл 'tweets.csv' находится в вашем текущем рабочем каталоге.

Имейте в виду, что это реальные данные из Twitter, поэтому существует вероятность, что они содержат нецензурную лексику или другой нежелательный контент (в этом упражнении и в последующих, которые также используют реальные данные Twitter).

Инициализируйте пустой словарь counts_dict для хранения результатов обработки данных Twitter.
Переберите файл 'tweets.csv' с помощью цикла for. Используйте переменную цикла chunk и итерируйтесь по результату вызова pd.read_csv() с параметром chunksize, равным 10.
Во внутреннем цикле переберите значения столбца 'lang' в chunk с помощью цикла for. Используйте переменную цикла entry.

упражнение

Обработка больших объёмов данных из Twitter

Инструкции

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}упражнение

Инструкции

упражнение