1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python ツールボックス

Connected

演習

大量の Twitter データを処理する

扱うデータがコンピュータのメモリで処理しきれない大きさになることがあります。これはデータサイエンティストがよく直面する問題です。これに対する解決策の一つは、データ全体を一度に処理するのではなく、チャンク(小さなかたまり)に分けて順に処理する方法です。

この演習では、その方法を実践します。前提コースの Bringing it all together の演習で 'tweets.csv' を処理したのと同様に、Twitter の大きな csv ファイルを扱いますが、今回は 1 回に 10 件ずつのチャンクで処理します。

自分の環境で Twitter データにアクセスして扱う方法に興味がある方は、DataCamp の Importing Data in Python の Part 2 を参照してください。

pandas パッケージは pd としてインポート済みで、ファイル 'tweets.csv' は現在のディレクトリに用意されています。

これは実際の Twitter データであり、不適切な表現や不快に感じるコンテンツが含まれる可能性があります(この演習および実データを使用する後続の演習でも同様です)。

指示

100 XP
  • Twitter データの処理結果を格納する空の辞書 counts_dict を初期化します。
  • for ループを使って 'tweets.csv' ファイルを反復処理します。ループ変数は chunk とし、chunksize を 10 に指定した pd.read_csv() の呼び出しを反復します。
  • 内側のループでは、chunk の列 'lang' を for ループで反復します。ループ変数は entry を使います。