首页 > IT资讯 > 正文

Python网页正文结构化提取库:jparser 0.0.11发布

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:

Bug fix:


title提取错误


正文区域判断失误bad case


li标签内容遗漏


在线测试Demo:http://jparser.duapp.com/


代码实例:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://www.pythontab.com").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()
print "**title**"
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']


PythonTab微信公众号:

Python技术交流互助群 ( 请勿加多个群 ):

群1: 87464755

群2: 333646237

群3: 318130924

群4: 385100854

相关词搜索:网页 抓取

上一篇:PYTHON 为何能坐稳 AI 时代头牌语言
下一篇:命令行接口自动生成库,Python Fire 0.1.1 发布