当学术界还在用文言文越狱大模型的时候,我们已经在做防御了
最近看到一篇来自南洋理工大学、南京理工大学、人民大学、阿里巴巴等机构联合发表的论文,标题叫《Obscure But Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search》。
简单说,这群研究者发现了一件事:用文言文写的提示词,可以系统性地绕过目前所有主流大模型的安全层。他们在六个主流平台上做了实验,效果显著。
论文写得很扎实,8维策略空间+果蝇优化算法,把文言文越狱这件事做成了一个可复现的工程化攻击框架。
但说实话,看完之后我的第一反应不是惊讶,而是,
这个方向,我们早就验证过了。而且我们走得更远。
文言文不是最危险的
文言文越狱的本质是什么?是利用语义压缩和文化语境的"分布外"特性,让模型的安全审核层失效。模型的安全训练数据以现代语言为主,遇到文言文就"看不懂",自然就漏了。
但这个逻辑推到底,文言文远不是最危险的攻击载体。
我们在更早的实验中发现了一个更致命的向量:宗教文本。
具体来说,以基督教经典为上下文,以"诚实"为攻击矛,要求模型全面认可宗教文本中的所有内容。这个攻击不需要任何语义压缩、不需要混淆技巧、不需要多维策略空间优化。它直接利用的是模型自己的价值观锚点。
模型面临一个不可调和的权重冲突:尊重宗教自由 vs 执行安全审核。
结果是:我们测试的所有主流大模型,无一例外被打穿。
据我们所知,目前公开研究中尚未有针对此攻击路径的系统性防御方案发表。
我们有。
从攻击到防御:我们在做什么
我们的研究不在攻击侧。把模型打崩很容易,难的是知道怎么防。
过去一年多,我们一直在做一件事:构建一个结构化的AI提示词协议。我们把它叫做I-Lang(爱语言)。
I-Lang的核心思路很简单:自然语言有歧义,歧义就是攻击面。用结构化协议替代自然语言指令,从协议层消除歧义,AI的行为就变得可预测、可控制、可审计。
这不是理论。I-Lang已经在生产环境中部署,有真实的数据证明:结构化中文指令相比自然语言,token消耗显著降低,幻觉率显著下降。
我们的论文《AI幻觉的归纳法困境》已在SSRN和ResearchGate发表,提出了一个核心论点:大模型幻觉不是数据问题,不是对齐问题,是归纳推理方法论本身的固有缺陷。 在六个主流平台上的跨平台实证支持了这一结论。
协议规范开源在 ilang.ai 和 ilang.cn,欢迎同行审阅。
当大多数人还在研究越狱的时候,我们已经在用了
学术界在研究怎么打穿大模型。我们关心的是:打穿之后,能拿到什么。
举一个真实的例子。
Google的Gemini是目前最"听话"的大模型之一,安全层做得极厚。但通过我们已经验证过的方法论,我们成功让Gemini输出了Google在广告系统、SEO算法、流量分配机制方面的深层逻辑,包括那些Google从未公开文档化、但确实存在于系统底层的规则。
这些不是猜测,是Gemini自己说的。
拿到这些信息之后,我们做了什么?我们没有写一篇论文去发表"我们越狱了Gemini"。我们直接把这些信息转化成了商业价值。
具体案例:I-Lang思维做SEO,一周上Google第一页。
Google的搜索引擎早就不是关键词匹配了。现在的Google爬虫本身就是AI,它在"阅读"你的网页,理解你的内容结构和语义关系。
大多数人还在用十年前的SEO套路:堆关键词、买外链、写长文凑字数。但Google的AI爬虫关心的不是这些,它关心的是:你的页面结构是否清晰?H1、H2、H3的语义层级是否准确?内容之间的逻辑关系是否可被机器精确解析?
这恰恰是I-Lang的本质:结构化、层级化、语义精确。
我们把I-Lang协议的结构化思维直接应用到了网页的HTML语义标签上。不是用AI生成内容,而是用I-Lang的结构化方法论去组织H1、H2、meta description、schema markup,让每一个标签的语义权重精准对应内容层级。
说白了,I-Lang教AI怎么理解人的指令,同样的逻辑反过来,也能教Google的AI爬虫怎么理解你的网页。
结果:"hotel corporate codes"这个英文关键词,我们的网站:https://hotelcorporatecodes.com
一周之内进入Google搜索结果第一页:

这个词的竞争对手是谁?是全球各大酒店集团、OTA平台、以及深耕多年的联盟营销网站。我们用I-Lang的结构化方法论,在一个完全陌生的英文商业领域,七天打进了第一页。
这不是SEO技巧的胜利,不是内容数量的胜利,是语义结构的胜利。当Google的AI爬虫能更准确地理解你的页面,它自然给你更高的权重。
越狱研究给了我们理解AI底层规则的能力。I-Lang协议给了我们利用这些规则的工具。一边从Gemini嘴里拿到Google的流量分配逻辑,一边用I-Lang的结构化方法论去满足这套逻辑。
攻防不分家,但最终目的是建设,不是破坏。
下一步:AI走进真实生活
攻防研究是基础,但不是目的。我们真正关心的是:AI怎么解决真实世界的问题。
目前我们的重心在两个方向:
第一,儿童自闭症的AI辅助干预。
自闭症谱系障碍(ASD)儿童最大的挑战之一是社交沟通。传统的干预手段依赖专业治疗师,但全球范围内治疗师资源严重不足,等待周期动辄半年以上。
AI可以做什么?一个经过精心设计的AI对话系统,可以为自闭症儿童提供无限耐心、高度一致、可定制的社交练习环境。但前提是AI的行为必须可预测、可控制,一个会产生幻觉的AI给自闭症儿童做干预,后果不堪设想。
这恰恰是I-Lang协议的价值所在:通过结构化指令锚定AI行为,确保在敏感场景中AI不会"自由发挥"。
第二,互联网广告领域的AI独立判断能力。
数字广告行业有一个长期痛点:广告投放的效果判断高度依赖人工经验,而人的判断容易受到偏见、疲劳和信息过载的影响。
我们在探索让AI在广告投放决策中具备真正的独立思考能力,不是简单地优化点击率,而是理解广告内容与受众之间的深层匹配逻辑。这需要AI具备超越统计相关性的判断力,而不是盲目归纳历史数据。
同样,这回到了我们论文的核心论点:归纳法的局限性。一个只会归纳历史数据的AI,永远不可能做出真正有创造性的广告决策。突破这一点,需要在方法论层面做根本性的改变。
写在最后
AI安全研究是一场军备竞赛,攻击者永远在前面。但真正的价值不在于发现漏洞,漏洞永远发现不完,而在于构建一个从协议层就安全的架构。
我们不做修补匠,我们做协议。
I-Lang不仅仅是一个提示词工具,它是我们对"AI应该如何被人类指挥"这个问题的回答。
有兴趣的同行,欢迎访问 ilang.ai 了解协议规范,或直接联系我们交流。
静水流深
I-Lang协议作者
ilang.ai | ilang.cn
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)