【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

曾小蛙

16025人浏览 · 2023-06-27 15:18:14

曾小蛙 · 2023-06-27 15:18:14 发布

在这里插入图片描述

文章目录

概述
- 申请后直接使用大模型
- 开源可本地部署
通识数据集测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

概述

中文英文模型，GPT-4性能是当着无愧的王者，但无法使用。中文评测平台榜单比较混乱，看个人使用习惯。
模型汇总： https://github.com/wgwang/LLMs-In-China

申请后直接使用大模型

遇事不决- ChatGPT: https://chat.openai.com/
百度-文心一言：https://yiyan.baidu.com/
360智脑：https://chat.360.cn/
阿里-通义千问：https://qianwen.aliyun.com/
清华-chatGLM:chatglm.cn
科大讯飞-星火：https://xinghuo.xfyun.cn/

开源可本地部署

中文：清华60亿参数 ChatGLM2-6B : https://github.com/THUDM/ChatGLM2-6B

通识数据集测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

自媒体报道

百度文心大模型3.5（ERNIE 3.5）
中文能力突出，部分超过 GPT-4 的表现；综合能力稍逊于GPT-4，但是平均能力超过chatgpt

在这里插入图片描述

SuperCLUE：中文通用大模型综合性基准

评测地址：https://github.com/CLUEbenchmark/SuperCLUE
在这里插入图片描述

C-Eval：中英测评（清华上交提出）

论文：一个用于基础模型评估的多层次多学科的中文评估套件
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

当前排名（23.06.27）

该榜展示了，GPT-4在困难问题，科学技术工程数学（STEM）上的强大准确的回答能力。
而chatglm在人文和社会科学方面遥遥领先。
在这里插入图片描述

数据集内容

具体的科目如下图：

4个圈分别表示：
人文学科（humanities）
社会科学（Social Science）
STEM是科学（Science）、技术（Technology）、工程（Engineering）和数学（Mathematics）四门学科英文首字母的缩写。
这些科目的不同颜色表示四个难度水平：中学、高中、大学和专业水平（professional）。
在这里插入图片描述

数据量与试题示例

在这里插入图片描述

论文中的测评结果

测评方式，API或者开源模型（weights）
在这里插入图片描述

AGIEval：微软中英文评测

论文：AGIEval(一个以人为本的): A Human-Centric Benchmark for Evaluating Foundation Models.

该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试、包括普通大学入学考试（如中国的高考和美国的SAT考试）、司法考试、数学竞赛等

数据集内容

律师资格考试 (lawyer qualification exams)、
国家公务员考试 (civil servant exams)
GRE（Graduate Record Examination）是美国研究生入学考试）
GMAT（Graduate Management Admission Test）是经企管理类研究生入学考试）。
在这里插入图片描述

人类与国外主流模型差异

GPT-4
在这里插入图片描述

MMLU ：英文试题

测量大规模多任务语言理解：2009. Measuring Massive Multitask Language Understanding
该测试涵盖了57个任务，包括基础数学（elementary mathematics）、美国历史、计算机科学、法律等等。
用以测量模型是否，具备广泛的世界知识和问题解决能力

部分测评结果

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
在这里插入图片描述

试题内容

图来自论文
STEM是科学（Science）、技术（Technology）、工程（Engineering）和数学（Mathematics）四门学科英文首字母的缩写。

在这里插入图片描述

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m