Mengubah halaman web menjadi data dengan BeautifulSoup: mengambil teks

Sesuai janji, pada latihan-latihan berikut, Anda akan mempelajari dasar-dasar mengekstrak informasi dari HTML soup. Pada latihan ini, Anda akan mencari cara untuk mengekstrak teks dari halaman web BDFL, sekaligus mencetak judul halamannya.

Latihan ini merupakan bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

Instruksi latihan

Pada kode contoh, objek respons HTML html_doc sudah dibuat: tugas pertama Anda adalah membuatnya menjadi Soup menggunakan fungsi BeautifulSoup() dan menetapkan soup yang dihasilkan ke variabel soup.
Ekstrak judul dari HTML soup soup menggunakan atribut title dan tetapkan hasilnya ke guido_title.
Cetak judul halaman web Guido ke shell menggunakan fungsi print().
Ekstrak teks dari HTML soup soup menggunakan metode get_text() dan tetapkan ke guido_text.
Tekan Kirim untuk mencetak teks dari halaman web Guido ke shell.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

SkillTag.level.beginnerSkillTag.label

4.8+

Mulai Kursus Gratis

Web adalah sumber data yang kaya dari mana Anda dapat mengekstrak berbagai jenis wawasan dan temuan. Pada bab ini, Anda akan mempelajari cara mendapatkan data dari web, baik yang disimpan dalam file maupun dalam HTML. Anda juga akan mempelajari dasar-dasar scraping dan parsing data web.

Exercise 1: Mengimpor file flat dari web Exercise 2: Mengimpor flat file dari web: giliran Anda!Exercise 3: Membuka dan membaca flat file dari web Exercise 4: Mengimpor non-flat file dari web Exercise 5: Permintaan HTTP untuk mengimpor berkas dari web Exercise 6: Melakukan permintaan HTTP di Python menggunakan urllib Exercise 7: Mencetak hasil permintaan HTTP di Python menggunakan urllib Exercise 8: Melakukan permintaan HTTP di Python menggunakan requests Exercise 9: Mencakar data web dengan Python Exercise 10: Memparsing HTML dengan BeautifulSoup Exercise 11: Mengubah halaman web menjadi data dengan BeautifulSoup: mengambil teks

Latihan Saat Ini

Exercise 12: Mengubah laman web menjadi data dengan BeautifulSoup: mengambil hyperlink

Pada bab ini, Anda akan memperoleh pemahaman yang lebih mendalam tentang cara mengimpor data dari web. Anda akan mempelajari dasar-dasar mengekstrak data dari API, memahami pentingnya API, dan berlatih mengekstrak data dengan mendalami OMDB dan Library of Congress API.

Exercise 1: Pengantar API dan JSON Exercise 2: Kuis singkat: Sebenarnya apa itu JSON?Exercise 3: Memuat dan mengeksplorasi sebuah JSON Exercise 4: Kuis kilat: Mengeksplorasi JSON Anda Exercise 5: API dan berinteraksi dengan world wide web Exercise 6: Kuis kilat: Apa itu API?Exercise 7: Permintaan API Exercise 8: JSON—dari web ke Python Exercise 9: Mengeksplorasi Wikipedia API

Pada bab ini, Anda akan memantapkan pengetahuan tentang berinteraksi dengan API melalui pendalaman Twitter streaming API. Anda akan mempelajari cara melakukan streaming data Twitter waktu nyata, serta cara menganalisis dan memvisualisasikannya.

Exercise 1: Twitter API dan Autentikasi Exercise 2: Melakukan streaming tweet Exercise 3: Muat dan jelajahi data Twitter Anda Exercise 4: Data Twitter ke DataFrame Exercise 5: Sedikit analisis teks Twitter Exercise 6: Memplot data Twitter Anda Exercise 7: Pemikiran Akhir