python Memory Error的解决方法

不想上学的小菜鸟

24724人浏览 · 2021-10-31 19:05:58

不想上学的小菜鸟 · 2021-10-31 19:05:58 发布

在用python处理数据处理的时候有时候会碰到较大的数据集，可能会出现Memory Error 的问题，经过我的尝试，总结了如下几个方案。

1.回收一些暂时不用的内存

首先扩展一下python查看内存的方法：

import psutil
import os
info = psutil.virtual_memory()
print('内存使用：',psutil.Process(os.getpid()).memory_info().rss)
print('总内存：',info.total)
print('内存占比：',info.percent)
print('CPU个数：',psutil.cpu_count())

输出：

内存使用： 1083351040
总内存： 17074249728
内存占比： 24.1
CPU个数： 4

python的psutil包可以查看内存的使用情况，直接点任务管理器也可以查看电脑的内存使用占比，还可以kill掉一些不用的进程来释放内存。但是如果想要释放掉python占用的内存，比如一些使用过后续又不再需要的数据，可以导入gc包直接删除掉数据并回收内存。

import gc
del user_log
gc.collect()

输出：

2. 修改数据类型的长度

修改数据类型的长度，可以对数据进行内存压缩，从而减少内存的占用。

import time
# 对数据进行内存压缩
def reduce_mem_usage(df):
    starttime = time.time()
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if pd.isnull(c_min) or pd.isnull(c_max):
                continue
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100*(start_mem-end_mem)/start_mem))
        
    return df

3. 分而治之

读文件的时候可以逐行读取或者分块读取，避免一次性把数据都读入到内存里，导致程序崩掉。

逐行读取：

data = []
with open(path, 'r',encoding='gbk',errors='ignore') as f:
    for line in f:
        data.append(line.split(','))

分块读取
有时候即使可以一次性读取所有数据，但是对数据进行操作时（比如reduce_mem_usage），也可能跑不起来，这时候可以分块处理，再把结果拼接起来。

user_log_file = r'./file.csv'
read_chunks = pd.read_csv(user_log_file,iterator=True,chunksize=500000)
user_log = pd.DataFrame()
for chunk in read_chunks:
    chunk = reduce_mem_usage(chunk)
    user_log = user_log.append(chunk)

4. 修改磁盘虚拟内存

扩大磁盘虚拟内存：
1、打开 控制面板；
2、找到系统这一项；
3、找到 高级系统设置 这一项；
4、点击性能模块的设置按钮；
5、选择高级，在 虚拟内存 模块点击更改；
6、选择一个你文件运行的磁盘，点击自定义大小
记得不要选中“自动管理所有驱动器的分页文件大小”，手动输入初始大小和最大值，当然，最好不要太大，更改之后能在查看盘的使用情况，不要丢掉太多空间。
7、都设置好之后，记得点击 “设置”，然后再确定，否则无效，最后 重启电脑 就可以了。（一开始我没有重启电脑，还是跑不动，一度怀疑自己的硬件问题。）

如果还有其他方法可以解决内存问题，欢迎留言交流~

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，