イテレータを書いてデータをチャンク読み込みする (2)

前の演習では、read_csv() を使って大きなデータセットからDataFrameをチャンク単位で読み込みました。今回は、より大きいチャンクサイズでファイルを読み込み、最初のチャンクからデータを処理します。

データ処理では、特定の国の行だけで構成される新しいDataFrameを作成します。次に、その新しいDataFrameから 'Total Population' と 'Urban population (% of total)' の2列を zip で組み合わせます。最後に、得られたzipオブジェクトからタプルのリストを作成します。各タプルは、これら2列からそれぞれ1つずつ値を持ちます。

現在のディレクトリにある 'ind_pop_data.csv' のデータを使用します。pandas は pd としてインポート済みです。

pd.read_csv() を使って、'ind_pop_data.csv' をチャンクサイズ 1000 で読み込みます。結果を urb_pop_reader に代入してください。
反復可能オブジェクト urb_pop_reader から最初のDataFrameチャンクを取得し、df_urb_pop に代入してください。
df_urb_pop のうち、'CountryCode' が 'CEB' の行だけを選択します。これを行うには、df_urb_pop[____] の角括弧内で df_urb_pop['CountryCode'] が 'CEB' と「等しい」かどうかを比較してください。
zip() を使って、df_pop_ceb の 'Total Population' 列と 'Urban population (% of total)' 列を組み合わせます。得られたzipオブジェクトを pops に代入してください。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習