python正则如何匹配中文汉字

一位代码

37967人浏览 · 2021-12-27 07:54:51

一位代码 · 2021-12-27 07:54:51 发布

正则表达式匹配中文汉字，在实际应用中十分常见。
比如：爬虫网页文本提取、验证用户输入标准等。
以下面文本字符串为例，匹配出astr这个字符串中的所有汉字。

import re
astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头'''

下面介绍两种方法（本文环境为python3）
一、使用Unicode编码来匹配中文
常见的中文Unicode编码范围：\u4e00-\u9fa5
实现匹配代码：re.findall(’[\u4e00-\u9fa5]’, astr)

import re
astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头'''
res = re.findall('[\u4e00-\u9fa5]', astr)
print(res)

匹配结果：
在这里插入图片描述
二、直接使用中文汉字实现中文匹配
没使用过可能还真不知道，中文匹配还可以这样
实现匹配代码：re.findall(’[一-龥]’, astr)

import re
astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头'''
res = re.findall('[一-龥]', astr)
print(res)

匹配结果：
在这里插入图片描述
注：其实这里“一”对应的Unicode编码就是“\u4e00”,“龥”（yù）对应的Unicode编码就是“\u9fa5”。

常见非英文字符Unicode编码范围：
u4e00-u9fa5 (中文)
u0800-u4e00 (日文)
uac00-ud7ff（韩文）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，