Python正则表达式时出现TypeError: expected string or bytes-like object

yekingyan

197411人浏览 · 2018-05-21 17:20:48

yekingyan · 2018-05-21 17:20:48 发布

用BeautifulSoup解析网页数据，用正则表达式处理数据时时出现如下错误：

python错误提示：TypeError: expected string or bytes-like object（预定的数据类型或者字节对象相关）

一般为数据类型不匹配造成的。

Python3中有六个标准的数据类型：

Number(数字)
string(字符串)
List（列表）
Tuple（元组）
Sets（集合）
Dictionary（字典）

可以通过print(type(object))来查当前的数据类型，式中object为要查询的对象。

首先有一段这样的代码：

import re
import requests
from bs4 import BeautifulSoup
import lxml

#获取网页数据
urlSave = "https://www.douban.com/people/yekingyan/statuses"
req = requests.get(urlSave)
soup = BeautifulSoup(req.text,'lxml')

#beautifulsoup解析后，获取所需的数据
times = soup.select('div.actions > span')
says = soup.select('div.status-saying > blockquote')

然后查看一下获得是数据数型是什么

print('says:',type(says))

结果是：says: <class 'list'>

这就可以知道BeautifulSoup里的soup.select()选出来的数据是list列表类型。

下面分别取出列表内的数据

#遍历输出
for say in says:
    print(type(say))

看一下是什么类型

结果是：<class 'bs4.element.Tag'> ，不同于上述的六种类型

原来Beautiful Soup 将复杂HTML文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

直接对数据用正则表达式

for say in says:
    # 正则表达式获取必要数据
    say = re.search('<p>(.*?)</p>',say)

出现错误TypeError: expected string or bytes-like object

因此在正则表达式之前，转换一下数据类型，就解决了问题。如下：

for say in says:
    #转换数据类型，不然会报错
    say = str(say)
    # 正则表达式获取必要数据
    say = re.search('<p>(.*?)</p>',say)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AtomGit 11 月：新一代 AtomGit 平台正式上线！

AtomGit开源社区

【实战教程】手把手教你用AI搞定毕业论文：从DeepSeek搭框架，到沁言学术“填肉”

本文提出了一套AI论文写作SOP工具链，推荐结合使用DeepSeek和沁言学术两个工具。首先利用DeepSeek强大的结构化思维生成逻辑严密的论文框架，再通过沁言学术基于真实文献进行内容填充。这种方法既能保证论文逻辑性，又能避免AI编造数据和文献的问题。具体操作分为两个阶段：1)用DeepSeek设计三级目录；2)用沁言学术基于上传的参考文献进行定向写作，确保每句话都有出处。这种组合方式既发挥了通