小白学 Python 爬虫（42）：春节去哪里玩（系列终篇）

这里小编还想说一点，虽然我们在前面 7、 8 篇文章中都是在讲如何使用爬虫框架 Scrapy ，说实话，小编并不觉得 Scrapy 有多方便，在一些简单的应用场景下，使用 Requests 库可能是最方便的选择， Scrapy 小编个人感觉还是更适合使用在一些中大型的爬虫项目中，简单的爬虫脚本使用最简单的技术栈就 ok 了，所以小编在本文中使用的技术栈还是 Requests PyQuery 。

不要问为啥，问就是喜欢。

分析

首先我们访问链接，打开我们将要抓取的站点：https://www.mafengwo.cn/gonglve/ 。

这里是攻略的列表页，我们的目标是抓取来自游记的数据，其余的数据放过，原因是在游记中我们才能获取到一些具体的我们需要的数据。

数据的来源搞清楚了，接下来是翻页功能，只有清楚了如何翻页，我们才能源源不断的获取数据，否则就只能抓取第一页的数据了。

当把页面翻到最下面的时候就尴尬了，发现是自动加载更多，这个当然难不倒帅气逼人的小编我，掏出大杀器， Chrome 的开发者工具 F12 ，选到 network 标签页，再往下滚动一下，我们查看下这个页面发出的请求。

这个请求很有意思，请求的路径和我们访问的页面路径一样，但是请求类型变成 POST ，并且增加了请求参数，类型还是 Form 表单格式的。

截止这里，我们已经清楚了目标站点的数据路径以及翻页方式，虽然目前我们并不知道最大页数是多少，但是我们可以人为的设置一个最大页数，比如 100 或者 200 ，小编相信，这么大的站点上，几百页的游记应该是还有的。

代码

代码小编就直接贴出来，之前有同学希望数据是保存在 Excel 中的，本次实战的数据就不存数据库了，直接写入 Excel 。

import requests
from pyquery import PyQuery
import xlsxwriter

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
    'cookie': '__jsluid_s=6fc5b4a3b5235afbfdafff4bbf7e6dbd; PHPSESSID=v9hm8hc3s56ogrn8si12fejdm3; mfw_uuid=5e1db855-ab4a-da12-309c-afb9cf90d3dd; _r=baidu; _rp=a:2:{s:1:"p";s:18:"www.baidu.com/link";s:1:"t";i:1579006045;}; oad_n=a:5:{s:5:"refer";s:21:"https://www.baidu.com";s:2:"hp";s:13:"www.baidu.com";s:3:"oid";i:1026;s:2:"dm";s:15:"www.mafengwo.cn";s:2:"ft";s:19:"2020-01-14 20:47:25";}; __mfwothchid=referrer|www.baidu.com; __omc_chl=; __mfwc=referrer|www.baidu.com; Hm_lvt_8288b2ed37e5bc9b4c9f7008798d2de0=1579006048; uva=s:264:"a:4:{s:13:"host_pre_time";s:10:"2020-01-14";s:2:"lt";i:1579006046;s:10:"last_refer";s:137:"https://www.baidu.com/link?url=uR5Oj9n_xm4TSj7_1drQ1HRnFTYNM0M2TCljkjVrdIiUE-B2qPgh0MifEkceLE_U&wd=&eqid=93c920a80002dc72000000035e1db85c";s:5:"rhost";s:13:"www.baidu.com";}";; __mfwurd=a:3:{s:6:"f_time";i:1579006046;s:9:"f_rdomain";s:13:"www.baidu.com";s:6:"f_host";s:3:"www";}; __mfwuuid=5e1db855-ab4a-da12-309c-afb9cf90d3dd; UM_distinctid=16fa418373e40f-070db24dfac29d-c383f64-1fa400-16fa418373fe31; __jsluid_h=b3f11fd3c79469af5c49be9ecb7f7b86; __omc_r=; __mfwa=1579006047379.58159.3.1579011903001.1579015057723; __mfwlv=1579015057; __mfwvn=2; CNZZDATA30065558=cnzz_eid=448020855-1579003717-https%3A%2F%2Fwww.baidu.com%2F&ntime=1579014923; bottom_ad_status=0; __mfwb=5e663dbc8869.7.direct; __mfwlt=1579019025; Hm_lpvt_8288b2ed37e5bc9b4c9f7008798d2de0=1579019026; __jsl_clearance=1579019146.235|0|fpZQ1rm7BHtgd6GdjVUIX8FJJ9o='
}


s = requests.Session()


value = []

def getList(maxNum):
    """
    获取列表页面数据
    :param maxNum: 最大抓取页数
    :return:
    """
    url = 'http://www.mafengwo.cn/gonglve/'
    s.get(url, headers = headers)
    for page in range(1, maxNum   1):
        data = {'page': page}
        response = s.post(url, data = data, headers = headers)
        doc = PyQuery(response.text)
        items = doc('.feed-item').items()
        for item in items:
            if item('.type strong').text() == '游记':
                # 如果是游记，则进入内页数据抓取
                inner_url = item('a').attr('href')
                getInfo(inner_url)


def getInfo(url):
    """
    获取内页数据
    :param url: 内页链接
    :return:
    """
    response = s.get(url, headers = headers)
    doc = PyQuery(response.text)
    title = doc('title').text()
    # 获取数据采集区
    item = doc('.tarvel_dir_list')
    if len(item) == 0:
        return
    time = item('.time').text()
    day = item('.day').text()
    people = item('.people').text()
    cost = item('.cost').text()
    # 数据格式化
    if time == '':
        pass
    else:
        time = time.split('/')[1] if len(time.split('/')) > 1 else ''

    if day == '':
        pass
    else:
        day = day.split('/')[1] if len(day.split('/')) > 1 else ''

    if people == '':
        pass
    else:
        people = people.split('/')[1] if len(people.split('/')) > 1 else ''

    if cost == '':
        pass
    else:
        cost = cost.split('/')[1] if len(cost.split('/')) > 1 else ''


    value.append([title, time, day, people, cost, url])


def write_excel_xlsx(value):
    """
    数据写入Excel
    :param value:
    :return:
    """
    index = len(value)

    workbook = xlsxwriter.Workbook('mfw.xlsx')
    sheet = workbook.add_worksheet()
    for i in range(1, index   1):
        row = 'A'   str(i)
        sheet.write_row(row, value[i - 1])
    workbook.close()
    print("xlsx格式表格写入数据成功！")


def main():
    getList(5)
    write_excel_xlsx(value)

if __name__ == '__main__':
    main()

因为马蜂窝在游记的详情页面上有反爬的限制，小编这里为了简单，直接从浏览器中将 cookie copy 出来，加在了请求头上。

小编这里简单的爬取了 5 个列表页的信息，如下：

好像数据量并不是很多的样子，各位同学可以尝试爬取 50 页或者 100 页的数据，这样得到的结果会有比较不错的参考价值。

好了，本篇内容到这里就结束了，小编随后会将全部的文章索引整理出来推在公众号上，方便大家查阅。

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

您的扫码关注，是对小编坚持原创的最大鼓励：）

GitHub 加速计划 / li / linux-dash

下载

A beautiful web dashboard for Linux

最近提交(Master分支：3 个月前 )

186a802e added ecosystem file for PM2 4 年前

5def40a3 Add host customization support for the NodeJS version 4 年前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m