python爬虫——requests状态码418
·
问题描述
使用requests库爬取某个豆瓣电影评论,status_code
码为418
根据官方文档显示,status_code
为200
时表示get
成功。查了一下官方github的issue(像“愉快地讨论”问题)以及其他资料,发现418
就是爬取的网站有反爬取机制,然后我就被KO了~
解决方案
方法很easy~就是添加请求header
的UserAgent
防止被反爬虫识别。获取本机UserAgent
信息,由于我的浏览器是Chrome,直接在浏览器地址栏添加chrome://version/
即可查询复制。
headers = {'User-Agent' : '本机UserAgent的信息'}
url = '爬取的网址'
r = requests.get(url,headers = headers)
r.status_code
幸运地解决了问题,status_code
变成了200
。
参考链接
更多推荐
已为社区贡献1条内容
所有评论(0)