1. Learn
  2. /
  3. 课程
  4. /
  5. Python 数据导入进阶

Connected

道练习

使用 BeautifulSoup 解析 HTML

在本互动练习中,您将学习如何使用 BeautifulSoup 包来解析(parse)、美化(prettify)并从 HTML 中提取(extract)信息。我们将从 Guido van Rossum 的个人网页抓取数据,他曾是 Python 的 Benevolent Dictator for Life。在接下来的练习中,您会先美化 HTML,然后提取文本和超链接。

目标 URL 为 url = 'https://www.python.org/~guido/'。

说明

100 XP
  • 从包 bs4 中导入函数 BeautifulSoup。
  • 将目标 URL 赋值给变量 url。
  • 使用单个函数 requests.get() 构造并发送请求,并将返回的响应赋给变量 r。
  • 使用对象 r 的 text 属性,将网页的 HTML 以字符串形式取回;将结果存入变量 html_doc。
  • 使用函数 BeautifulSoup(),基于得到的 HTML 创建一个 BeautifulSoup 对象 soup。
  • 在 soup 上调用方法 prettify(),并将结果赋给 pretty_soup。
  • 点击 提交答案,在终端打印美化后的 HTML!