1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python ツールボックス

Connected

exercise

イテレータを書いてデータをチャンク読み込みする (2)

前の演習では、read_csv() を使って大きなデータセットからDataFrameをチャンク単位で読み込みました。今回は、より大きいチャンクサイズでファイルを読み込み、最初のチャンクからデータを処理します。

データ処理では、特定の国の行だけで構成される新しいDataFrameを作成します。次に、その新しいDataFrameから 'Total Population' と 'Urban population (% of total)' の2列を zip で組み合わせます。最後に、得られたzipオブジェクトからタプルのリストを作成します。各タプルは、これら2列からそれぞれ1つずつ値を持ちます。

現在のディレクトリにある 'ind_pop_data.csv' のデータを使用します。pandas は pd としてインポート済みです。

Instruktioner

100 XP
  • pd.read_csv() を使って、'ind_pop_data.csv' をチャンクサイズ 1000 で読み込みます。結果を urb_pop_reader に代入してください。
  • 反復可能オブジェクト urb_pop_reader から最初のDataFrameチャンクを取得し、df_urb_pop に代入してください。
  • df_urb_pop のうち、'CountryCode' が 'CEB' の行だけを選択します。これを行うには、df_urb_pop[____] の角括弧内で df_urb_pop['CountryCode'] が 'CEB' と「等しい」かどうかを比較してください。
  • zip() を使って、df_pop_ceb の 'Total Population' 列と 'Urban population (% of total)' 列を組み合わせます。得られたzipオブジェクトを pops に代入してください。