1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で始めるデータのインポート入門

Connected

演習

pandas インポートのカスタマイズ

pandas パッケージは、データサイエンティストとしてデータをインポートする際に直面する多くの課題にうまく対処できます。たとえばフラットファイル内のコメント、空行、欠損値(NA や NaN)などです。この章の締めくくりとして、タイタニックデータセットの破損コピー titanic_corrupt.txt をインポートします。このファイルには文字 '#' 以降にコメントが含まれ、かつタブ区切りになっています。

pd.read_csv() の主要な引数は次のとおりです。

  • sep は想定する区切り文字を指定します。
    • カンマ区切りには ',' を使います。
    • タブ区切りには '\t' を使います。
  • comment は、ファイル内でコメントが始まる文字を受け取り、これらの文字で始まるテキストは無視されます。
  • na_values は NA/NaN と見なす文字列のリストを受け取ります。既定でも一部の値は NA/NaN と認識されますが、この引数を指定すると追加の値を登録できます。

指示

100 XP
  • pd.read_csv() の引数を完成させ、pandas を使って titanic_corrupt.txt を正しくインポートしてください。
    • sep は使用する区切り文字を指定します。np.loadtxt() の delimiter 引数と同じ動作です。今回のファイルはタブ区切りです。
    • comment はファイル内でコメントが始まる文字を指定します。ここでは '#' です。
    • na_values は NA/NaN として扱う文字列のリストを指定します。ここでは文字列 'Nothing' です。
  • 残りのコードを実行して、得られた DataFrame の先頭を表示し、タイタニック乗客の 'Age' のヒストグラムを描画してください。