チャンク読み込み用イテレータの作成 (5)

いよいよ最後の仕上げです。ここまでで、大きなデータセットをチャンクごとに処理する方法をたくさん学んできました。この演習では、データ処理のコードを1つの関数にまとめ、同じことを毎回書き直さずに再利用できるようにします。

これから、2つの引数を取る関数 plot_pop() を定義します。1つ目は処理対象のファイル名、2つ目はデータセット内で処理したい行の国コードです。

これまでの演習で書いたコードはすべて plot_pop() の中に入るので、この関数を呼び出すだけで次の処理が行われます。

やることは多いですが、関数にまとめることで、任意のファイルと国コードに対して同じ処理と可視化を手軽に繰り返せるようになります。

現在のディレクトリにある 'ind_pop_data.csv' のデータを使います。パッケージ pandas と matplotlib.pyplot は、それぞれ pd と plt としてインポート済みです。

終わったら、プロットを眺めて、この章で身につけた新しいスキルを振り返ってみてください。旅はここで終わりではありません。このデータの操作が楽しかった方は、Kaggle で公開されている前処理済みバージョンを使って、さらに探索を続けてみましょう。

2つの引数を持つ関数 plot_pop() を定義します。1つ目は処理するファイルを表す filename、2つ目はデータセットで処理する国を示す country_code です。
ファイル 'ind_pop_data.csv' の国コード 'CEB' のデータを処理するために plot_pop() を呼び出します。
ファイル 'ind_pop_data.csv' の国コード 'ARB' のデータを処理するために plot_pop() を呼び出します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習