大语言模型的最新进展：决策制定、知识图谱、推理能力等

布客飞龙

24人浏览 · 2026-05-17 00:53:32

布客飞龙 · 2026-05-17 00:53:32 发布

原文：towardsdatascience.com/the-latest-on-llms-decision-making-knowledge-graphs-reasoning-skills-and-more-1a8f4f31f3b7?source=collection_archive---------1-----------------------#2024-09-05

https://towardsdatascience.medium.com/?source=post_page---byline--1a8f4f31f3b7--------------------------------https://towardsdatascience.com/?source=post_page---byline--1a8f4f31f3b7-------------------------------- TDS 编辑团队

·发表于 Towards Data Science ·通过 Newsletter 发送 ·阅读时间 4 分钟 ·2024 年 9 月 5 日

–

想要写下你的第一篇 TDS 文章吗？我们始终欢迎新作者的投稿。

随着大语言模型持续发展的速度，保持与该领域同步已成为一项重大挑战。我们每天都会看到新的模型、前沿研究和基于大语言模型的应用程序层出不穷，因此，许多从业者自然担心自己会落后，或者无法使用到最新和最先进的工具。

首先，让我们深呼吸一下：当整个生态系统在多个方向迅速发展时，没人能指望（或被期望）知道一切。我们也不应忘记，大多数同行也处于类似的情况，他们专注于对自己工作至关重要的发展，同时避免过度担心错过信息——或者至少尽量不让自己陷入这种困境。

如果你仍然有兴趣了解一些当前在大语言模型（LLMs）领域引发广泛讨论的重大问题，或者对机器学习专业人士正在探索的新兴主题感到好奇，我们随时为你提供帮助。在本周的《Variable》专栏中，我们将重点介绍一些深入探讨当前大语言模型状态的精彩文章，涵盖其底层能力和实际应用。让我们一起来看看吧！

导航新型 LLM 代理与架构 在对基于 LLM 的代理进行清晰概述时，Aparna Dhinakaran为这一时常混乱的领域注入了大量清晰度：“团队如何导航新框架和新代理方向？有哪些工具可用，应该使用哪些工具来构建下一个应用？”
利用语言代理树搜索（LATS）与 GPT-4o 应对复杂的 LLM 决策问题 在他首次撰写的 TDS 文章中，Ozgur Guler详细介绍了 LLM 在决策任务中面临的挑战，并概述了一种有前景的方法，该方法结合了 GPT-4o 模型的强大能力与语言代理树搜索（LATS）——一种“动态的基于树的搜索方法”，能够增强模型的推理能力。
从文本到网络：LLM 对知识图谱的革命性影响 近年来，大型语言模型和知识图谱分别沿着平行且大多独立的路径发展，但正如Lina Faik在她新的逐步指南中所指出的，现在是时候同时利用它们各自的优势，从而实现更准确、一致和具有上下文相关性的结果。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c4562e14c4b0bf0e93f4242434b297b5.png

图片来源：Mick Haupt 通过 Unsplash

没有基准线？没有基准测试？没关系！一种实验性敏捷聊天机器人开发方法 在 LLM 驱动解决方案的新奇性和初期兴奋感消退后，产品团队仍然面临保持其有效运行并持续提供商业价值的挑战。Katherine Munro在最近的一次讲座中介绍了她在基准测试和测试 LLM 产品方面的方法，现在她将其转化为一种易于理解和可操作的路线图。
探索 LLMs 在风险博弈环境中的战略能力 Hans Christian Ekne 最近的深入研究也讨论了评估 LLMs 的问题，但从不同的、更理论化的角度出发。它详细审视了领先模型（来自 Anthropic、OpenAI 和 Meta）在经典棋盘游戏《风险》规则下展现的不同战略行为，讨论了它们的不足，并展望了 LLMs 推理能力的未来。
如何通过更好的采样参数提高 LLM 的响应 我们本周的最后一篇文章是由Dr. Leon Eversberg带来的一篇实践教程，讲解并可视化了定义 LLM 输出行为的采样策略，并演示了如何更好地理解这些参数，有助于我们改善模型生成的输出。

数据科学和机器学习的世界是广阔的，远远超出了当代的大型语言模型（LLMs）——这也是我们鼓励你探索其他相关主题的阅读推荐的原因：

如果你是一个数据科学家，偶尔会在将抽象的商业问题分解成更小、更明确的分析时遇到困难，那么不要错过Tessa Xie基于她作为顾问的经验所提供的宝贵见解。
开创性的 BERT 模型可能很快就满 6 岁了，但它的影响力依然与今天的许多机器学习从业者息息相关。 Daniel Warfield 的权威解释带领我们详细探讨了其内部运作机制。
我们是否已经达到了一个模型可以教导并训练另一个（更小）模型的地步？Laurin Heilmeyer探讨了这个问题的新视角以及这种方法对于资源有限的小型组织可能带来的潜在好处。
角色转换通常并不容易；正如Claudia Ng所明确指出的那样，尽管如此，你仍然可以采取一些步骤，使转变过程更加顺利和快速，正如她在最近从数据分析师转型为数据科学家的经历中所做的那样。
对持续学习的概念感到陌生？我们鼓励你探索Alicja Dobrzeniecka关于多模态视觉-语言模型及其在对比语言-图像预训练（CLIP）模型中的应用可能性的文章。
数据专业人士在工作中经常遇到图表，但他们通常不会停下来思考是什么让优秀的图表脱颖而出。Mel Richey 博士在一篇清晰且充满实例的指南中填补了这一空白。

感谢您支持我们作者的工作！正如我们之前提到的，我们很高兴发布新作者的文章，如果你最近写了一篇有趣的项目 walkthrough、教程或关于我们核心主题的理论反思，别犹豫，与我们分享。

直到下一个 Variable，

TDS 团队

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026微信编辑器综合实力榜：AI准确率与场景覆盖率解析

建议用"AI适合处理的业务量"作基准，排除明显需人工介入的长尾case。

AtomGit开源社区

AI Agent 完全拆解：从原理到架构到实战，一次讲透(4)

Anthropic 提出的 MCP 协议，是 Agent 领域的「USB 标准」。它定义了一个标准化的方式，让 LLM 和外部工具/数据源通信。在 Agent 的推理过程中，交替输出「思考」和「行动」。通用 Agent = 什么都会一点，但什么都不精通垂直 Agent = 一件事做到 95 分，其他事不会。第三代 Agent 放弃了「通用」路线，转向「专精」。ReAct 的特殊之处在于，它把「思