1. Обучение
  2. /
  3. Курса
  4. /
  5. Инструментарий Python

Connected

упражнение

Обработка больших объёмов данных из Twitter

Иногда объём данных, которые нужно обработать, превышает возможности оперативной памяти компьютера. Это распространённая проблема в работе специалистов по данным. Один из способов её решить — обрабатывать источник данных не целиком, а по частям (чанками).

В этом упражнении вы сделаете именно это. Вы обработаете большой CSV-файл с данными из Twitter так же, как обрабатывали 'tweets.csv' в упражнениях Bringing it all together из предыдущего курса, но на этот раз — порциями по 10 записей за раз.

Если вас интересует, как получить доступ к данным Twitter для работы на собственном компьютере, обратитесь к части 2 курса DataCamp по импорту данных в Python.

Библиотека pandas импортирована как pd, а файл 'tweets.csv' находится в вашем текущем рабочем каталоге.

Имейте в виду, что это реальные данные из Twitter, поэтому существует вероятность, что они содержат нецензурную лексику или другой нежелательный контент (в этом упражнении и в последующих, которые также используют реальные данные Twitter).

Инструкции

100 XP
  • Инициализируйте пустой словарь counts_dict для хранения результатов обработки данных Twitter.
  • Переберите файл 'tweets.csv' с помощью цикла for. Используйте переменную цикла chunk и итерируйтесь по результату вызова pd.read_csv() с параметром chunksize, равным 10.
  • Во внутреннем цикле переберите значения столбца 'lang' в chunk с помощью цикла for. Используйте переменную цикла entry.