成功解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 2192: illegal multibyte seque

QYLZ

7574人浏览 · 2023-05-27 12:25:47

QYLZ · 2023-05-27 12:25:47 发布

项目场景：

在做语言处理的过程中，需要读取txt文本文件中的内容。

问题描述

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa6 in position 2192: illegal multibyte sequence

原因分析：

这个错误通常表示在执行解码操作时，使用了错误的编码格式，导致无法正常解码某些字符。例如在这个具体的错误信息中，'gbk’编码器尝试解码一个字节串，但发现该字节串中存在0xa6字节，而该字节不符合 ‘gbk’ 编码格式，因此抛出了 UnicodeDecodeError 异常。

解决方案：

（1）尝试更改文件读取方式的编码格式。可以尝试使用默认的’utf-8’编码。例如：

filename = 'text.txt'

# 使用默认编码 UTF-8 打开文件
with open(filename, 'r', encoding='utf-8') as f:
    # 处理文件内容
    content = f.read()
    print(content)

如果文件真的没有UTF-8编码，还可以尝试使用其他可能的编码形式，例如’gb18030’，'big5’等。如果不知道文件编码方式可以通过chardet检测编码并打开，例如：

import chardet

filename = 'text.txt'

# 检测文件编码
with open(filename, 'rb') as f:
    result = chardet.detect(f.read())
    encoding = result['encoding']
    
# 使用正确编码打开文件
with open(filename, 'r', encoding=encoding) as f:
    # 处理文件内容
    content = f.read()
    print(content)

（2）使用 codecs 库来指定编码格式和错误处理器进行处理，例如：

import codecs

filename = 'text.txt'

# 使用 codecs 库指定编码格式和错误处理器来打开文件
with codecs.open(filename, 'r', encoding='utf-8', errors='ignore') as f:
    # 处理文件内容
    content = f.read()
    print(content)

（3）可以尝试使用二进制模式读取文件，以便更好地处理不同编码格式的字符。例如，使用’rb’（二进制模式）代替’r’（文本模式）读取文件。

（4）如果数据集中有一些特殊字符/符号，可能需要手动处理这些字符。可以删除数据集中的这些字符或对其进行替换。

（5）可以重新下载/获取数据集，并确保使用正确的编码方式打开它。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m