1. 학습
  2. /
  3. 강의
  4. /
  5. Python ツールボックス

Connected

연습 문제

大量のTwitterデータから情報を抽出する

前の演習でファイルをチャンク分割できました。非常に大きなファイルを処理する方法を身につけたのは、とても有用なスキルです!

ファイルを小さく扱いやすいチャンクに分けて処理できるのは便利ですが、同じタスクのたびに同じコードを書き直すのは手間がかかります。この演習では、前回の作業を「関数定義」にまとめて、コードの「再利用性」を高めます。

pandas パッケージは pd としてインポート済みで、ファイル 'tweets.csv' は作業用に現在のディレクトリにあります。

지침

100 XP
  • 3 つのパラメータを持つ関数 count_entries() を定義します。1 つ目はファイル名用の csv_file、2 つ目はチャンクサイズ用の c_size、最後は列名用の colname です。
  • for ループを使って、csv_file のファイルを反復処理します。ループ変数を chunk とし、pd.read_csv() の呼び出しを反復処理し、その際に chunksize に c_size を渡します。
  • 内側のループでは、chunk の中の colname で指定された列を for ループで反復処理します。ループ変数は entry を使います。
  • 関数 count_entries() を、ファイル名 'tweets.csv'、チャンクサイズ 10、カウントする列名 'lang' を渡して呼び出します。呼び出し結果を変数 result_counts に代入してください。