python爬虫——requests状态码418

面包猎人

6611人浏览 · 2020-11-09 16:12:54

面包猎人 · 2020-11-09 16:12:54 发布

问题描述

使用requests库爬取某个豆瓣电影评论，status_code码为418
问题描述
根据官方文档显示，status_code为200时表示get成功。查了一下官方github的issue（像“愉快地讨论”问题）以及其他资料，发现418就是爬取的网站有反爬取机制，然后我就被KO了～

解决方案

方法很easy～就是添加请求header的UserAgent防止被反爬虫识别。获取本机UserAgent信息，由于我的浏览器是Chrome，直接在浏览器地址栏添加chrome://version/即可查询复制。

headers = {'User-Agent' : '本机UserAgent的信息'}
url = '爬取的网址'
r = requests.get(url,headers = headers)
r.status_code

幸运地解决了问题，status_code变成了200。

参考链接

requests状态码
 requests官方文档
 参考解决方案
 UserAgent

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

GitCode 8月：AI 社区界面焕新，8万奖池AI应用大赛等你来挑战，全国Meetup合作社区招募！

GitCode 开源社区

开源星期六第二期！聚焦三方库鸿蒙化，解锁移植新体验

GitCode 开源社区

技术驱动学术论文写作创新：以智能工具高效生成论文提纲为例

技术如沁言学术驱动的创新，不仅简化了提纲生成，还培养了学者的结构化思维。在我的导师经验中，它的价值在于客观性（减少偏见）和效率（加速迭代），最终提升论文的学术影响力。对于CSDN平台分享，我建议读者从免费试用开始：选择一个简单专题，比较AI vs. 手动提纲，逐步融入工作流。写作提升点包括：逻辑更严谨、时间更节省、输出更专业。拥抱这些工具，能让学术写作从负担转为创新过程——欢迎在评论区分享你的体验