可以先看看集搜客gooseeker开源爬虫项目

里面使用了一个 Selenium库的东西,可以调用浏览器渲染页面,然后处理渲染后的页面

Selenium与PhantomJS搭配采集动态网页内容是比较经典的方案,PhantomJS可以在后台实现页面的渲染,而不是调用浏览器完成

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐