0%

Python练习册:0008

题目

    一个HTML文件,找出里面的正文。

分析

我们可以用BeautifulSoup库去解析HTML,的结构获取内容,手册提供的实例中就有这个内容,只需要使用get_text()函数即可获取里面的文字内容。

pip install beautifulsoup4 lxml

代码

1
2
3
4
5
6
7
8
9
10
11
"""
一个HTML文件,找出里面的正文。
"""

from bs4 import BeautifulSoup as BS

#构造一个BeautifulSoup对象
soup = BS(open('show-me-the-code.html'),'lxml')
#获取正文
print(soup.get_text())

扩展

实际上这只是简单的获取标签内容,真正使用的时候,遇到复杂的网页,效果就不是很好了。这时需要一些算法来优化结果。

参考

欢迎关注我的其它发布渠道