python 如何爬取审查元素中Elements里有的元素,而源代码里没有的标签?
element
A Vue.js 2.0 UI Toolkit for Web
项目地址:https://gitcode.com/gh_mirrors/eleme/element
免费下载资源
·
网址:http://gpj.mofcom.gov.cn/article/ch/201808/20180802773240.shtml
在这里我们可以看到,这个网站的新闻页面的作者,发布时间那一栏的标签在审查元素的Elements里有的元素,而源代码里却没有,如果单纯的使用xpath或者css无法匹配解析出想要的信息。
并且我们可以看到这个元素是使用JavaScript进行渲染的,在源代码中的开头我们可以看到以下这张图片的代码:
解决方案有很多,接下来我们来看看
方法1:正则表达式
在这推荐一个验证正则表达式的网站:http://tool.oschina.net/regex
因此这里举一个例子,解析代码是这样的:
news_author = response.xpath('//script').re('v.{2}\ss.{4}e\s=\s\"[\u4e00-\u9fa5]+\"')[0][13:].replace('"','')
其他方法后续再补充
GitHub 加速计划 / eleme / element
54.06 K
14.63 K
下载
A Vue.js 2.0 UI Toolkit for Web
最近提交(Master分支:3 个月前 )
c345bb45
7 个月前
a07f3a59
* Update transition.md
* Update table.md
* Update transition.md
* Update table.md
* Update transition.md
* Update table.md
* Update table.md
* Update transition.md
* Update popover.md 7 个月前
更多推荐
已为社区贡献5条内容
所有评论(0)