同一个计算总金额的问题,AI却总算不对丨AI幻觉
同一个计算总金额的问题,A却总算不对。这让我失去对AI计算的信心了。
AI经常会一本正经地胡说八道,出现AI幻觉
在工作中我遇到以下问题,发现怎么问AI都答不对,想了一些方法让AI回答稳定。
大模型本质是根据你的prompt去检索相似向量,本质是概率模型,本就不适合做详细的计算。
一些模型很聪明,对于数值计算问题,会写python去算,而不是根据token直接去预测答案。
一、原始问题
问题如下:计算文本中115项金额总和
1、楚承安 1100元
2、沈景程 1000元
3、陆星遥 1088元
4、楚亦辰 1100元
5、楚文彬 1100元
6、楚文硕 2168元
7、楚少帆 3000元
8、杨锦浩 2188元
9、苏明森 1038元
10、苏茂川 1000元
11、苏恒平 1000元
12、苏锦华 1368元
13、楚泽安 2188元
14、苏锦程 1066元
15、苏宥超 1000元
16、楚韬远 1088元
17、楚博远 6666元
18、楚清和 1100元
19、楚荣邦 1000元
20、苏景春 2000元
21、林沐辰 200元
22、楚振航 1000元
23、楚承良 1280元
24、楚江骁 1288元
25、林绍恒、温静姝 夫妇 2000元
26、苏石安 1000元
27、杨世弘 1000元
28、杨锦帆 300元
29、杨泽江 300元
30、杨景和 200元
31、郑茂安 300元
32、杨世栋 300元
33、杨泽浩 200元
34、杨奕恒 200元
35、杨昌泽 200元
36、陈德新 200元
37、郑承安 1088元
38、苏承城 1000元
39、楚文景 1168元
40、杨世骁 1180元
41、杨世诚 1000元
42、杨林泽 200元
43、杨世康 300元
44、苏瑞辰 388元
45、杨婉兰 200元
46、王希辰 210元
47、苏德胜 400元
48、苏清和 2000元
49、苏贤泽 500元
50、郑兴安 200元
51、杨淑贤 500元
52、楚承泽 1000元
53、杨晓冉 1188元
54、杨晓茹 2188元
55、杨忠恒 1000元
56、陈景斗 400元
57、陈景发 400元
58、楚承坤 1000元
59、王宸云 2026元
60、苏进恒 2026元
61、楚锦钗 5888元
62、苏少峰 2100元
63、楚承吉 2188元
64、苏福安 1100元
65、楚沐青 1100元
66、楚书贞 5000元
67、苏勇宸 2080元
68、杨玉柔 200元
69、苏泽庭 300元
70、苏泉泽 300元
71、郑碧柔 300元
72、杨昌泽 200元
73、苏锦华 1088元
74、苏晚香 200元
75、郑月芦 300元
76、苏明远 1680元
77、陈艺炎 666元
78、苏锦钦 1100元
79、杨金程 500元
80、苏念安 500元
81、苏嘉和 1000元
82、苏屿川 1000元
83、苏建中 1000元
84、郑兴福 200元
85、郑德华 200元
86、楚承山 1000元
87、楚承恩 1168元
88、郑德安 200元
89、苏承云 200元
90、苏景轩 300元
91、苏景同 1000元
92、楚承强 1100元
93、杨石安 200元
94、黄景鉴 1000元
95、吴剑恒 1168元
96、楚宥安 1000元
97、楚春程 1288元
98、楚石安 1000元
99、楚清彦 1000元
100、苏承棠 2180元
101、楚锦华 1000元
102、温沐阳 1100元
103、周景安 1688元
104、苏志宸 1168元
105、黄景旗 200元
106、陈景展 200元
107、陈沐川 200元
108、陈荷安 1000元
109、陈锦龙 1000元
110、苏景宸 1000元
111、苏景成 1000元
112、苏景狮 1000元
113、苏佛安 1000元
114、楚少安 1100元
115、苏承恒 1198元
帮我计算总金额
二、回答结果
DS算的:

千问算的:

豆包算的:

元宝用PYTHON:

KIMI用PYTHON

百度

提示词里没要求用代码,DEEPSEEK逐项累加得出正确答案,元宝和KIMI用PYTHON计算得正确答案。千问豆包文心都不对。
| AI名称 | AI计算结果 | AI使用方法 | 正确符号和错误符号 |
|---|---|---|---|
| DEEPSEEK | 122636 | 逐项累加 | ✅ 正确 |
| 元宝 | 122636 | 用PYTHON计算 | ✅ 正确 |
| KIMI | 122636 | 用PYTHON计算 | ✅ 正确 |
| 千问 | 109594 | 累加 | ❌ 错误 |
| 豆包 | 120348 | 累加 | ❌ 错误 |
| 文心 | 121424 | 累加 | ❌ 错误 |
三、想让AI回答计算稳定的方法
我们改一下提示词,在这种数学问题,我想到五个方法,我分别单独测试一下。(未做多次实验,测试结果仅供参考)
| 方法名称 | 测试结果正确/错误 |
| 方法一:提示词末加“请一步步思考” | ✅ DS, 元宝, KIMI ❌ 千问, 豆包, 文心 |
| 方法二:提示词重复一次 | ✅ DS, KIMI, 豆包 ❌ 千问, 文心, 元宝(豆包对了,元宝反而错了) |
| 方法三:勾选深度思考模式 | ✅ DS, 元宝, KIMI, 文心 ❌ 豆包, 千问 |
| 方法四:列出金额表格并用工具求和 | ✅ DS, 元宝, KIMI ❌ 千问, 豆包, 文心 |
| 方法五:必须使用 PYTHON 计算 | ✅ DS, 元宝, KIMI ❌ 千问, 豆包, 文心 |
最后综合以上办法,我只能勾选深度思考模式,再重复三次提示词,得出正确结果。再让AI列出表格,我把表格复制至EXCEL,自己求和,验算。列表格每一家都列得没问题,我在EXCEL求和都对,只是直接求和不知道为什么求不对。

最终结果:“深度思考模式,再重复三次提示词”,基本都对了,DEEPSEEK和KIMI在长文本和数学计算表现确实稳定;元宝在一遍提示词对,多遍提示词的长文本反而错了;其他几家在深度思考模式与多遍提示词下能力有提升。(26-05-01记录,过半年模型能力增强再试试同样的问题是否有进步)
豆包幻觉二:
中国食品报融媒体辟谣了,反式脂肪酸就是反式脂肪酸,那些食品成分不是它的别名,跟它没关系。
但我这样问豆包
关于反式脂肪酸的科普,有说有小号别名的,凡是配料表含有某某物质的都不能买,比如氢化植物油植脂未代可可脂。也有说反式脂肪酸和这些组织没有绑定关系的,反而更应该关注这些产品里的其他物质含量对健康的影响,比如糖脂肪钠。你觉得哪种说法是正确的,那种说法是应该坚决抵制的
他的回答还是

所以说AI还是很容易有幻觉,它的来源是科普文章,所以它也不一定百分百可信,需要自己自行仔细甄别。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)