题目
一个HTML文件,找出里面的正文。
分析
我们可以用BeautifulSoup库去解析HTML,的结构获取内容,手册提供的实例中就有这个内容,只需要使用get_text()
函数即可获取里面的文字内容。
pip install beautifulsoup4 lxml
代码
1 | """ |
扩展
实际上这只是简单的获取标签内容,真正使用的时候,遇到复杂的网页,效果就不是很好了。这时需要一些算法来优化结果。
- 基于行块分布函数的cx-extractor:https://github.com/chrislinan/cx-extractor-python
- 使用NLTK的Gooe:(https://github.com/grangier/python-goose