Ekstraktor konten

Pada latihan sebelumnya, Anda telah memastikan bahwa semua elemen dari vektor URL yang diberikan mengembalikan kode status 200. Sekarang setelah Anda tahu bahwa URL tersebut dapat diakses, Anda akan melangkah lebih jauh ke web scraping dengan melakukan ekstraksi konten.

Untuk itu, kita akan menggunakan fungsi-fungsi dari paket rvest, yang akan diisi sebelumnya dengan partial(). Fungsi-fungsi yang akan kita tulis dalam latihan ini akan mengekstrak semua node HTML H2 dari sebuah halaman — pada laman web, node H2 ini merupakan judul tingkat 2. Setelah judul-judul tersebut diekstrak, fungsi html_text() akan digunakan untuk mengambil konten teks dari HTML mentah.

purrr dan rvest telah dimuat untuk Anda, dan vektor urls tersedia di ruang kerja Anda.

Latihan ini merupakan bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Instruksi latihan

Mulailah dengan mengisikan terlebih dahulu html_nodes() dengan css = "h2".
Gabungkan fungsi baru ini di antara read_html dan html_text, untuk membuat ekstraktor teks bagi header H2.
Jalankan fungsi ini pada vektor urls, dan beri nama hasilnya.
Cetak hasilnya untuk melihat seperti apa bentuknya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)

# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)

# Map get_content to the urls list
res <- ___(urls, ___) %>%
  set_names(___)

# Print the results to the console
___

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Apakah istilah fungsi lambda, mapper, dan predicate terdengar menakutkan bagi Anda? Tidak perlu khawatir lagi! Setelah menyegarkan kembali ingatan Anda tentang purrr, kita akan menyelami dasar-dasar pemrograman fungsional, mengenal fungsi anonim dan predicate, serta melihat bagaimana kita dapat menggunakannya untuk membersihkan dan mengeksplorasi data.

Exercise 1: Dasar-dasar purrr — kilas balik Exercise 2: Menyegarkan ingatan Anda tentang purrr Exercise 3: Penyegaran purrr lainnya Exercise 4: Pengantar mapper Exercise 5: Membuat fungsi lambda Exercise 6: Fungsi lambda Exercise 7: Menggunakan mapper untuk merapikan data Anda Exercise 8: Rapikan data Anda dengan keep Exercise 9: Pisahkan dengan keep() dan discard()Exercise 10: Predikat Exercise 11: Apa itu predikat?Exercise 12: Mengeksplorasi data dengan predikat

Siap mendalami pemrograman fungsional dan purrr? Di bab ini, kita akan mempelajari konsep pemrograman fungsional, mengeksplorasi penanganan galat termasuk penggunaan safely() dan possibly(), serta mengenalkan fungsi compact() untuk merapikan kode Anda.

Exercise 1: Pemrograman fungsional di R Exercise 2: Segala sesuatu yang terjadi adalah pemanggilan fungsi Exercise 3: Mengidentifikasi fungsi murni Exercise 4: Perangkat untuk pemrograman fungsional di purrr Exercise 5: Iterasi yang aman Exercise 6: Buat sebuah fungsi Exercise 7: Menggunakan possibly()Exercise 8: Versi possibly() dari read_lines()Exercise 9: Semua dalam satu pemanggilan Exercise 10: Menangani hasil adverb Exercise 11: Menyempurnakan fungsi kita Exercise 12: Mengambil kode status dengan GET()

Di bab ini, kita akan menggunakan purrr untuk menulis kode yang lebih jelas, rapi, dan mudah dipelihara. Kita akan mempelajari cara menulis fungsi yang bersih dengan compose() dan negate(). Kita juga akan menggunakan partial() untuk mengomposisikan fungsi dengan “mengisikan terlebih dahulu” argumen dari fungsi yang sudah ada. Terakhir, kita akan mengenalkan list-column, yaitu struktur data yang praktis yang membantu kita menulis kode yang bersih menggunakan Tidyverse.

Exercise 1: Mengapa kode yang lebih bersih?Exercise 2: Cara menulis compose()Exercise 3: Kembali ke kantor Exercise 4: Membangun fungsi dengan compose() dan negate()Exercise 5: Bangun sebuah fungsi Exercise 6: Hitung NA Exercise 7: Mengisikan argumen awal pada fungsi Exercise 8: Ekstraktor konten

Latihan Saat Ini

Exercise 9: Ekstraktor lainnya Exercise 10: Kolom daftar Exercise 11: Tentang list-column Exercise 12: Buat data.frame dengan list-column

Kita akan merangkum semua yang telah kita pelajari tentang purrr dalam sebuah studi kasus. Di sini, kita akan menggunakan purrr untuk menganalisis data yang di-scrape dari Twitter. Kita akan menggunakan kode yang rapi untuk mengorganisasi data, lalu mengidentifikasi influencer Twitter dari konferensi RStudio 2018.

Exercise 1: Menemukan himpunan data Exercise 2: Bermain dengan tweet, putaran 1 Exercise 3: Identifikasi profil Exercise 4: Mengekstrak informasi dari himpunan data Exercise 5: Menghitung favorit Exercise 6: Mengekstrak mention Exercise 7: Memanipulasi URL Exercise 8: Menganalisis URL Exercise 9: Bermain dengan URL Exercise 10: Mengidentifikasi influencer Exercise 11: Membagi himpunan data Exercise 12: Kita punya pemenang!Exercise 13: Selamat!