1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python ツールボックス

Connected

演習

タイムスタンプ付きデータのリスト内包表記

この章で学んだ内容を使って、簡単なデータ抽出の課題に取り組みます。あわせて、この演習では pandas のデータ構造である Series も登場します。ここでは詳しくは扱いませんが、pandas の DataFrame を分析する際によく使うデータ構造です。DataFrame の各列は、Series と呼ばれる一次元配列だと考えるとよいでしょう。

この演習では、リスト内包表記を使って、Twitter のタイムスタンプデータから時刻部分を抽出します。pandas パッケージは pd としてインポート済みで、ファイル 'tweets.csv' は DataFrame df として読み込まれています。

指示

100 XP
  • df から列 'created_at' を抽出し、tweet_time に代入します。豆知識:ここで tweet_time に入る抽出結果は Series データ構造です!
  • tweet_time の各行から時刻を取り出すリスト内包表記を作成します。各行はタイムスタンプを表す文字列で、文字列の「12 文字目から 19 文字目」までにアクセスして時刻を抽出します。反復変数 には entry を使い、結果を tweet_clock_time に代入してください。Python では 0 始まりのインデックスであることを忘れないでください!