Извлечение информации из больших массивов данных Twitter

Отлично справились с разбивкой файла на чанки в предыдущем упражнении! Теперь вы знаете, как работать с ситуациями, когда нужно обработать очень большой файл — а это действительно полезный навык.

Уметь обрабатывать файл небольшими, удобными фрагментами — хорошо, но постоянно переписывать один и тот же код для одной и той же задачи быстро становится утомительным. В этом упражнении вы сделаете свой код более переиспользуемым, оформив работу из предыдущего упражнения в виде определения функции.

Пакет pandas уже импортирован как pd, а файл 'tweets.csv' находится в вашей текущей рабочей директории.

Определите функцию count_entries() с 3 параметрами. Первый параметр — csv_file для имени файла, второй — c_size для размера чанка, третий — colname для названия столбца.
Итерируйтесь по файлу csv_file с помощью цикла for. Используйте переменную цикла chunk и итерируйтесь по результату вызова pd.read_csv(), передав c_size в аргумент chunksize.
Во внутреннем цикле итерируйтесь по столбцу colname в chunk с помощью цикла for. Используйте переменную цикла entry.
Вызовите функцию count_entries(), передав ей имя файла 'tweets.csv', размер чанка 10 и название столбца 'lang'. Сохраните результат вызова в переменную result_counts.

演習

Извлечение информации из больших массивов данных Twitter

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習