1. 学ぶ
  2. /
  3. コース
  4. /
  5. purrr で学ぶ中級関数型プログラミング

Connected

演習

ツイートで遊ぶ:ラウンド1

このコースの前の章で、あなたはWebエージェンシーのデータアナリストとして働いていましたね。成果が評価され、さらに新しいプロジェクトを任されました ;) この章では、新しい種類のデータ、すなわちJSONの出力を分析します。

エンジニアリングチームから、RStudio Conf 2018の期間中に収集したツイートのデータ収集結果が渡されました。このデータセットはJSON形式なので、Rでは入れ子のリストとして読み込んでいます。

まずはこのデータセットの基本的な探索から始めましょう。そのためにpurrrが大活躍します。パッケージはすでに読み込まれており、rstudioconf データセットはワークスペースで利用できます。

注意:データセット全体を表示しようとしないでください — DataCampのコンソールに出力するには大きすぎます。

これはTwitterの実データであるため、不適切な表現や不快な内容が含まれる可能性があります(この演習および、実際のTwitterデータを使用する以降の演習でも同様です)。

指示

100 XP
  • 内容と構造の概要をつかむために、リストの最初の要素を表示します。

  • 元ツイート(リツイートではない)に絞りたいので、各サブリストに含まれる論理要素 "is_retweet" を使って、非リツイートのみのサブリストを作成します。

  • この新しいサブリストの各要素から、整数用の map_* 変種を使って "favorite_count" 要素を抽出します。

  • 前の結果の中央値を求めます。