爬虫反爬机制及反爬策略

克豪

4811人浏览 · 2020-10-19 15:49:35

克豪 · 2020-10-19 15:49:35 发布

参考：https://www.cnblogs.com/LLBFWH/articles/10902533.html

爬虫是一种模拟浏览器对网站发起请求，获取数据的方法。简单的爬虫在抓取网站数据的时候，因为对网站访问过于频繁，给服务器造成过大的压力，容易使网站崩溃，因此网站维护者会通过一些手段避免爬虫的访问，以下是几种常见的反爬虫和反反爬虫策略：
在这里插入图片描述

关于网站动态加载的方法，还能一种反反爬虫的方法：找到其api的接口，这里有一个爬取B站视频信息的实例就是使用的这种方法，地址：https://github.com/iszoop/BilibiliSpider

爬虫进阶：反爬策略的应对机制

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求；如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用 Scrapy 框架时，如何应对普通的反爬机制。

header校验

最简单的反爬机制，就是检查 HTTP 请求的 Headers 信息，包括 User-Agent, Referer、Cookies 等。

User-Agent

在每次请求中，随机选取一个真实浏览器的 User-Agent。

Referer

Referer 是检查此请求由哪里来，通常可以做图片的盗链判断。在 Scrapy 中，如果某个页面 url 是通过之前爬取的页面提取到，Scrapy 会自动把之前爬取的页面 url 作为 Referfer。也可以通过上面的方式自己定义 Referfer 字段。

Cookies

网站可能会检测 Cookie 中 session_id 的使用次数，如果超过限制，就触发反爬策略。所以可以在 Scrapy 中设置 COOKIES_ENABLED = False让请求不带 Cookies。

也有网站强制开启 Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带 Cookies 的请求，提取响应中 Set-cookie 字段信息并保存。爬取网页时，把存储起来的 Cookies 带入 Headers 中。

X-Forwarded-For

在请求头中添加 X-Forwarded-For 字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些。
X-Forwarded-For 头一般格式如下X-Forwarded-For: client1, proxy1, proxy2
这里将 client1，proxy1 设置为随机 IP 地址，把自己的请求伪装成代理的随机 IP 产生的请求。然而由于 X-Forwarded-For 可以随意篡改，很多网站并不会信任这个值。

限制 IP 的请求数量

如果某一 IP 的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理。
request.meta['proxy'] = 'http://proxy_host:proxy_port

然后再每次请求时使用不同的代理 IP。然而问题是如何获取大量的代理 IP？

可以自己写一个 IP 代理获取和维护系统，定时从各种披露免费代理 IP 的网站爬取免费 IP 代理，然后定时扫描这些 IP 和端口是否可用，将不可用的代理 IP 及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

动态代理

现在越来越多的网站使用 ajax 动态加载内容，这时候可以先截取 ajax 请求分析一下，有可能根据 ajax 请求构造出相应的 API 请求的 URL 就可以直接获取想要的内容，通常是 json 格式，反而还不用去解析 HTML。

然而，很多时候 ajax 请求都会经过后端鉴权，不能直接构造 URL 获取。这时就可以通过 PhantomJS+Selenium 模拟浏览器行为，抓取经过 js 渲染后的页面。具体可以参考：

需要注意的是，使用 Selenium 后，请求不再由 Scrapy 的 Downloader 执行，所以之前添加的请求头等信息都会失效，需要在 Selenium 中重新添加

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m