0%

Python练习册：0008

发表于 2018-06-01 分类于 Python练习册
本文字数： 630 阅读时长 ≈ 1 分钟

题目

    一个HTML文件，找出里面的正文。

分析

我们可以用BeautifulSoup库去解析HTML，的结构获取内容,手册提供的实例中就有这个内容，只需要使用get_text()函数即可获取里面的文字内容。

pip install beautifulsoup4 lxml

代码

"""
一个HTML文件，找出里面的正文。
"""

from bs4 import BeautifulSoup as BS

#构造一个BeautifulSoup对象
soup = BS(open('show-me-the-code.html'),'lxml')
#获取正文
print(soup.get_text())

扩展

实际上这只是简单的获取标签内容，真正使用的时候，遇到复杂的网页,效果就不是很好了。这时需要一些算法来优化结果。

基于行块分布函数的cx-extractor：https://github.com/chrislinan/cx-extractor-python
使用NLTK的Gooe：(https://github.com/grangier/python-goose

参考

欢迎关注我的其它发布渠道