1. 学ぶ
  2. /
  3. コース
  4. /
  5. Инструментарий Python

Connected

演習

Извлечение информации из больших массивов данных Twitter

Отлично справились с разбивкой файла на чанки в предыдущем упражнении! Теперь вы знаете, как работать с ситуациями, когда нужно обработать очень большой файл — а это действительно полезный навык.

Уметь обрабатывать файл небольшими, удобными фрагментами — хорошо, но постоянно переписывать один и тот же код для одной и той же задачи быстро становится утомительным. В этом упражнении вы сделаете свой код более переиспользуемым, оформив работу из предыдущего упражнения в виде определения функции.

Пакет pandas уже импортирован как pd, а файл 'tweets.csv' находится в вашей текущей рабочей директории.

指示

100 XP
  • Определите функцию count_entries() с 3 параметрами. Первый параметр — csv_file для имени файла, второй — c_size для размера чанка, третий — colname для названия столбца.
  • Итерируйтесь по файлу csv_file с помощью цикла for. Используйте переменную цикла chunk и итерируйтесь по результату вызова pd.read_csv(), передав c_size в аргумент chunksize.
  • Во внутреннем цикле итерируйтесь по столбцу colname в chunk с помощью цикла for. Используйте переменную цикла entry.
  • Вызовите функцию count_entries(), передав ей имя файла 'tweets.csv', размер чанка 10 и название столбца 'lang'. Сохраните результат вызова в переменную result_counts.