1. Learn
  2. /
  3. 课程
  4. /
  5. Python 工具箱

Connected

道练习

处理海量 Twitter 数据

有时,我们需要处理的数据体量过大,超出了计算机内存所能承受的范围。这是数据科学家经常会遇到的问题。解决方案之一是分块处理整个数据源,而不是一次性全部读入。

在本练习中,您将按这种方式操作。您会像在前序课程的 Bringing it all together 练习中处理 'tweets.csv' 一样处理一个大型的 Twitter CSV 文件,但这一次将按每次 10 条记录的分块来处理。

如果您希望了解如何获取 Twitter 数据并在自己的系统上进行处理,请参考 DataCamp 课程 Importing Data in Python 的 Part 2。

已将 pandas 包以 pd 导入,文件 'tweets.csv' 已位于您当前工作目录,供您使用。

请注意:这些都是来自 Twitter 的真实数据,因此可能包含粗俗或令人反感的内容(本练习及后续使用真实 Twitter 数据的练习均可能如此)。

说明

100 XP
  • 初始化一个空字典 counts_dict,用于存储处理 Twitter 数据的结果。
  • 使用 for 循环遍历 'tweets.csv' 文件。将循环变量命名为 chunk,并对 pd.read_csv() 的调用进行迭代,chunksize 设为 10。
  • 在内层循环中,使用 for 循环遍历 chunk 中的 'lang' 列。将循环变量命名为 entry。