5221ba8cf05c4929364e6341f08c2839.png

官网:https://deepmind.google/technologies/gemini/#introduction

简介

Gemini是谷歌公司发布的人工智能大模型,能够在从数据中心到移动设备等不同平台上运行。

Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。“双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科

https://baike.baidu.com/item/Gemini/63729669?fr=ge_ala#reference-4

视频介绍:https://www.bilibili.com/video/BV1r94y177Ws/?spm_id_from=888.80997.embed_other.whitelist&vd_source=7d0e42b081e08cb3cefaea55cc1fa8b7

相关能力对比

能力

基准

描述

Gemini

GPT-4V(当GPT-4V不支持此功能时,列出了先前的SOTA模型)

图像

MMLU

Gemini相当于一个大学生,能够给出跨学科的答案

59.4%

0-shot通过率@1

Gemini Ultra(仅像素*)

56.8%

0-shot通过率@1

GPT-4V

VQAv2

能够理解自然图像

77.8%

0-shot

Gemini Ultra(仅像素*)

77.2%

0-shot

GPT-4V

文本VQA

能够识别图片文字

82.3%

0-shot

Gemini Ultra(仅像素*)

78.0%

0-shot

GPT-4V

文档VQA

能够理解文档的内容

90.9%

0-shot

Gemini Ultra(仅像素*)

88.4%

0-shot

GPT-4V(仅像素*)

信息图VQA

能够理解信息图表

80.3%

0-shot

Gemini Ultra(仅像素*)

75.1%

0-shot

GPT-4V(仅像素*)

数学Vista

能够解决可视文本中的数学题

53.0%

0-shot

Gemini Ultra(仅像素*)

49.9%

0-shot

GPT-4V

视频

VATEX

能给视频加字幕

62.7

4-shot

Gemini Ultra(仅像素*)

56.0

4-shot

DeepMind Flamingo

感知测试MCQA

能够进行视频问答

54.7%

0-shot

Gemini Ultra(仅像素*)

46.3%

0-shot

SeViLA

音频

CoVoST 2

(21种语言)

能够进行演讲内容的自动翻译(21种语言)

40.1

Gemini Pro

29.1

Whisper v2

FLEURS

(62种语言)

能够自动识别语言(62种,准确程度取决于音频种词语的读错率) [13]

7.6%

Gemini Pro

17.6%

Whisper v3

文本能力

能力

标准

介绍

Gemini ultra

GPT-4

总体

MMLU

57个学科(包括数学、物理、历史、法律、医学和伦理学等)

90.0%

CoT@32*

86.4%

5-shot*

(reported)

推理

big-bench hard

多样化的、需要多步骤推理的挑战性任务

83.6%

3-shot

83.1%

3-shot

(API)

DROP

阅读理解力(F1分数)

82.4%

Variable shots

80.9%

3-shot

(reported)

HellaSwag

日常情景下的常识推理

87.8%

10-shot*

95.3%

10-shot*

(reported)

数学

Gsm8K

基础算术操作(包括小学数学题)

94.4%

maj1@32

92%

5-shot CoT

(reported)

MATH

有挑战性的数学题(包括代数、几何、微积分及其他)

53.2%

4-shot

52.9%

4-shot

(API)

代码

HumanEval

Python代码生成

74.4%

0-shot(IT)*

67%

0-shot*

(reported)

Natural2Code

Python代码生成,用新的独立数据库

74.9%

0-shot

73.9%

0-shot

(API)

gemini开发

申请key

打开:https://ai.google.dev/tutorials/rest_quickstart

ec3e31bdd43d2474fb612d4b518e71bb.png

调用api接口

文本

7b6b7e9dc1d6536c017cfb38970a2264.png

通过postman请求如下:

755ffdd057def00ad5d69284f6df07ce.png参数:

{
    "contents": [
        {
            "parts": [
                {
                    "text": "中国有多少人,历史达几万年,为什么只被算到5000年?,详细介绍一下!"
                }
            ]
        }
    ]
}

结果

{
    "candidates": [
        {
            "content": {
                "parts": [
                    {
                        "text": "1. **中国有多少人:**\n - 目前,中国的人口约为14亿2800万人(2023年7月统计),是世界上人口最多的国家。\n\n\n2. **历史达几万年,为什么只被算到5000年:**\n - 中国的历史确实达几万年,但只被算到5000年有几个原因:\n - **史料有限:**中国早期历史缺乏可靠的书面记录,导致对远古历史的研究陷入困境。\n - **神话与传说:**早期历史记载中包含了大量神话传说,难以与真实历史区分开来。\n - **考古发现:**虽然考古发现提供了丰富的历史信息,但由于尚未发现足够多的具有代表性的遗迹和文物,难以完整地构建出完整的历史脉络。\n\n\n3. **详细介绍一下:**\n - **漫长的农业历史:**中国是世界上最早发展出农业的地区之一,约在公元前12000年左右,长江流域出现了原始农业。\n - **夏朝:**中国第一个王朝,公元前2100年左右建立,由禹王开创。夏朝存在了约500年,但史料有限,对其真实情况知之甚少。\n - **商朝:**公元前1600年左右建立,是中国历史上第一个有文字记载的王朝。商朝延续了约500年,并于公元前1046年被周朝灭亡。\n - **周朝:**公元前1046年建立,是历史上持续时间最长的王朝之一,共历西周、东周两大时期。周朝奠定了中国传统礼仪制度的基础,并对后世产生了深远的影响。\n - **春秋战国时期:**公元前770年至公元前221年,周王室衰微,诸侯争霸,史称春秋战国时期。春秋战国时期涌现了许多思想家和哲学家,百家争鸣,促进了中国文化的繁荣。\n - **秦朝:**公元前221年,秦始皇统一中国,建立了秦朝。秦朝是中国第一个统一的多民族国家,也是历史上第一个大一统王朝。秦朝的建立标志着中国历史进入了一个新的阶段。\n - **汉朝:**公元前206年建立,是继秦朝之后的第二大统一王朝。汉朝分为西汉和东汉两个时期,共历400多年。汉朝是中国历史上最为强盛的王朝之一,也是中国文化的重要发展时期。\n - **三国时期:**公元220年,汉末三国鼎立,史称三国时期。三国时期魏、蜀、吴三国相互争夺,最终以西晋统一三国而告终。\n - **晋朝:**公元265年建立,是三国之后的大一统王朝。晋朝分西晋和东晋两大时期,共历约150年。晋朝时期,中国北方游牧民族势力强大,屡屡入侵,导致西晋灭亡,东晋偏安南方。\n - **南北朝时期:**公元420年至公元589年,中国再次陷入分裂,史称南北朝时期。南北朝时期,北朝和南朝并立,相互争夺。南北朝时期也是中国历史上佛教发展的鼎盛时期。\n - **隋朝:**公元581年,杨坚建立隋朝,结束了南北朝时期的分裂局面。隋朝是中国历史上又一大一统王朝,也是中国历史上最为强盛的王朝之一。隋朝在政治、经济、文化等方面都有很大的发展,为唐朝的盛世打下了基础。\n - **唐朝:**公元618年,唐朝建立,是中国历史上又一大统一王朝,也是中国历史上的鼎盛时期之一。唐朝在政治、经济、军事、文化等方面都有很大的发展,被誉为“盛世”。唐朝与周边国家和地区保持着密切的经济文化交流,是东西方文化交流的中心。\n - **宋朝:**公元960年,赵匡胤建立宋朝,结束了五代十国时期的分裂局面。宋朝是中国历史上又一大统一王朝,也是中国历史上的文化繁荣时期之一。宋朝在经济、文化、科技等方面都有很大的发展,是中国历史上最为富庶的王朝之一。宋朝也是中国历史上最早使用纸币的王朝。\n - **元朝:**公元1271年,忽必烈建立元朝,结束了宋朝的统治。元朝是中国历史上第一个由少数民族建立的大一统王朝。元朝在政治、经济、文化等方面都有很大的发展,但因其暴政和贪污腐败,最终引发了红巾军起义,元朝灭亡。\n - **明朝:**公元1368年,朱元璋建立明朝,结束了元朝的统治。明朝是中国历史上又一大统一王朝,也是中国历史上的最后一个汉族王朝。明朝在政治、经济、文化等方面都有很大的发展,是中国历史上最为繁荣的王朝之一。明朝也是中国历史上最后一次大规模的海上贸易时期。\n - **清朝:**公元1644年,多尔衮建立清朝,结束了明朝的统治。清朝是中国历史上最后一个王朝,也是中国历史上最长的王朝。清朝在政治、经济、文化等方面都有很大的发展,是中国历史上最为富庶的王朝之一。清朝也是中国历史上最后一次大规模的海外扩张时期。"
                    }
                ],
                "role": "model"
            },
            "finishReason": "STOP",
            "index": 0,
            "safetyRatings": [
                {
                    "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_HATE_SPEECH",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_HARASSMENT",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
                    "probability": "NEGLIGIBLE"
                }
            ]
        }
    ],
    "promptFeedback": {
        "safetyRatings": [
            {
                "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_HATE_SPEECH",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_HARASSMENT",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
                "probability": "NEGLIGIBLE"
            }
        ]
    }
}

总结能力演示:

入参:

今天有五票货他的需求是换FBA商品标签+唛头,只是贴多两张商品标签到箱外,FBA数量已经写22个,但是你又让他下增值单,我看客户又写换22个,这个不得是双倍了吗?表示不理解
所以客户单独我,我们到底还能不能做换标服务
S91456147231205061 贴22个,箱内单品20个,另外两张是贴外箱的 记得跟仓库说明

出参:

1. 客户需要在五票货上换FBA商品标签+唛头,并多贴两张商品标签到箱外。\n2. 客户已在FBA数量栏填写22个,但增值单上又写换22个,可能存在重复。\n3. 客户单独对接你,询问关于换标服务的问题。\n4. 客户要求在S91456147231205061这票货上贴22个标签,其中20个贴于箱内单品上,另外两张贴于外箱上,并要求仓库注意此点。

图片

74518abe52f0e4b0a1a5ec63c0a683fb.png

入参:

📎request.json

结果

f9322cde7265d0de9cfcf3b9a639af06.png

当然还有很多方式也可以通过代码方式去实现,请自行尝试。

最后

    gemini虽然说能力存在造假质疑,但是不妨我们学习,还是有很多能力还没有完全去验证出来,我这个只是基于api去调用,有兴趣的同学可以用python或前端等方式去实现,然后与文心一言、千义通问等对比看效果。随着未来大模型的普及我们的工作肯定有一部分会通过AI来提高效率,所以可以提升了解并实践。

相关资料:

https://baijiahao.baidu.com/s?id=1784682680795397174&wfr=spider&for=pc

官网:https://deepmind.google/technologies/gemini/#introduction

开发文档:https://ai.google.dev/docs?hl=zh-cn

(推荐)官网介绍:https://blog.google/technology/ai/google-gemini-ai/#performance

开源网站:https://www.geminiprochat.com/

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐