[论文翻译]为什么AI智能体是生成式AI的下一个前沿领域 在过去的几年里,世界为生成式AI(Generative AI)释放的能力和可能性感到惊叹。大语言模型(LLM)等基础模型能够完成令人印象深刻的任务,在文本、音频、图像和视频等多种媒介中提取洞察并生成内容。但生成式AI的下一阶段可能会更具变革性。 由 icodebase发布于 4天前 智能体 阅读次数 29
[论文翻译]扩展通用数据分析智能体 (Data-Analytic Agents) 数据分析智能体 (Data-analytic Agent) 正成为自动化科学发现和实现创新人工智能愿景的关键催化剂。然而,当前方法严重依赖基于专有模型的提示工程或多智能体框架,而开源模型在处理现实分析所需的多样化格式、大规模数据文件以及长周期多步推理时仍面临困难。本文提出DATAMIND——一个可扩展的数据合成与智能体训练方案,旨在构建通用型数据分析智能体。该方法解决了构建开源数据分析智能体的三个关键挑战:数据资源不足、训练策略不当以及基于代码的多轮执行不稳定。具体而言,DATAMIND采用:1)细粒度任务分类与递归式由易到难任务组合机制,提升合成查询的多样性与难度;2)基于知识增强的轨迹采样策略,辅以模型驱动和规则驱动的过滤机制;3)结合监督微调与强化学习损失的动态可调训练目标;4)内存节约型且稳定的代码多轮执行框架。基于此,我们构建了DATAMIND-12K——一个涵盖多领域、多任务类别及多数据文件格式的高质量数据分析任务轨迹集。在DATAMIND-12K上训练的DATAMIND-14B模型在多项数据分析基准测试中以71.16%的平均得分达到最优性能,超越最强的专有基线DeepSeek-V3.1和GPT-5。我们的DATAMIND-7B模型同样以68.10%的得分在所有开源模型中表现最佳。通过分析实验,我们总结了探索性试验中获得的部分经验性发现,旨在为学界提供可操作的智能体训练洞见。我们将向社区发布DATAMIND-12K及DATAMIND-7B/14B模型以支持未来研究。 由 icodebase发布于 5天前 数据分析智能体 阅读次数 59
[论文翻译]EHRAgent: 代码赋能大语言模型实现电子健康记录少样本复杂表格推理 临床医生通常需要依赖数据工程师从电子健康记录 (EHR) 系统中检索复杂的患者信息,这一过程既低效又耗时。我们提出 EHRAgent,这是一个具备累积领域知识和强大编码能力的大语言模型智能体。EHRAgent 能够自主生成并执行代码,帮助临床医生直接通过自然语言与 EHR 系统交互。具体而言,我们将基于 EHR 的多表格推理任务构建为工具使用规划流程,高效地将复杂任务分解为一系列可管理的工具集操作。我们首先注入相关医疗信息,使 EHRAgent 能够有效推理给定查询,从相应表格中识别并提取所需记录。通过整合交互式编码与执行反馈,EHRAgent 能够从错误信息中学习,并迭代改进其初始生成的代码。在三个真实 EHR 数据集上的实验表明,EHRAgent 的成功率比最强基线高出 29.6%,验证了其在最少示例下处理复杂临床任务的强大能力。 由 Ylong发布于 2025-04-16 21:24:57 大语言模型智能体 阅读次数 383
[智能分析]AI智能体的关键要素及应用前景 在当今快速发展的科技时代,人工智能(AI)已成为推动各行各业变革的重要力量。AI智能体,作为人工智能的具体体现,具备自主学习、推理和决策的能力,正在深刻改变我们的生活和工作方式。随着计算能力的提升和大数据的广泛应用,AI智能体的关键要素逐渐显现,包括算法的先进性、数据的质量与数量、以及与人类的交互能力等。 AI智能体的应用前景广泛,涵盖了医疗、金融、制造、交通等多个领域。在医疗领域,AI智能体能够辅助医生进行疾病诊断和个性化治疗方案的制定;在金融领域,它们可以进行风险评估和市场预测,提高投资决策的准确性;在... 由 icodebase发布于 2025-03-23 19:16:12 人工智能智能体应用领域 阅读次数 409
[论文翻译]ViDoRAG: 基于动态迭代推理AI智能体的视觉文档检索增强生成 理解视觉丰富文档中的信息对于传统的检索增强生成 (Retrieval-Augmented Generation, RAG) 方法仍然是一个重大挑战。现有的基准测试主要集中在基于图像的问答 (QA) 上,忽视了在密集视觉文档中进行高效检索、理解和推理的基本挑战。为了弥补这一差距,我们引入了 ViDoSeek,这是一个旨在评估 RAG 在需要复杂推理的视觉丰富文档上的性能的新数据集。基于此,我们识别了当前 RAG 方法的关键局限性:(i) 纯视觉检索方法难以有效整合文本和视觉特征,(ii) 先前的方法通常分配不足的推理 Token,限制了其有效性。为了解决这些挑战,我们提出了 ViDoRAG,这是一个专为跨视觉文档的复杂推理而设计的新型多智能体 RAG 框架。ViDoRAG 采用基于高斯混合模型 (Gaussian Mixture Model, GMM) 的混合策略,有效处理多模态检索。为了进一步激发模型的推理能力,我们引入了一个迭代的智能体工作流程,结合探索、总结和反思,为研究 RAG 领域的测试时扩展提供了一个框架。在 ViDoSeek 上的大量实验验证了我们方法的有效性和泛化能力。值得注意的是,ViDoRAG 在竞争性 ViDoSeek 基准测试中比现有方法高出超过 10%。 由 shadow发布于 2025-03-10 09:21:30 大模型智能体迭代推理 阅读次数 635
[论文翻译]A-MEM:面向大语言模型智能体的记忆系统 尽管大语言模型 (LLM) 智能体能够有效利用外部工具处理复杂的现实任务,但它们需要记忆系统来利用历史经验。当前的记忆系统能够实现基本的存储和检索,但缺乏复杂的记忆组织,尽管最近尝试引入图数据库。此外,这些系统的固定操作和结构限制了它们在不同任务中的适应性。为了解决这一限制,本文提出了一种新颖的 LLM 智能体记忆系统,能够以智能体的方式动态组织记忆。遵循 Zettelkasten 方法的基本原则,我们设计了记忆系统,通过动态索引和链接创建相互关联的知识网络。当添加新记忆时,我们生成一个包含多个结构化属性的详细笔记,包括上下文描述、关键词和标签。系统随后分析历史记忆以识别相关连接,在有意义的相似性存在时建立链接。此外,这一过程还实现了记忆的演化——随着新记忆的整合,它们可能触发对现有历史记忆的上下文表示和属性的更新,从而使记忆网络能够不断完善其理解。我们的方法结合了 Zettelkasten 的结构化组织原则和智能体驱动决策的灵活性,实现了更具适应性和上下文感知的记忆管理。在六个基础模型上的实证实验显示,相较于现有的 SOTA 基线,性能有显著提升。性能评估的源代码可在 https://github.com/WujiangXu/AgenticMemory 获取,而记忆系统的源代码可在 https://github.com/agiresearch/A-mem 获取。 由 shadow发布于 2025-03-08 22:03:21 大模型智能体大语言模型 阅读次数 861
[论文翻译]基于纯视觉的GUI智能体的OmniParser 大语言模型在理解和推理能力方面展现了巨大成功。最近的研究探索了使用大视觉语言模型(VLM)作为智能体,在用户界面(UI)上执行复杂任务,旨在完成繁琐任务以替代人力 [YZL+23, YYZ+23, DGZ+23, ZGK+24, HWL+23, YZS+24, WXJ+24, GFH+24, CSC+24]。尽管取得了令人瞩目的成果,但在创建可跨多个平台(如Windows/MacOS、IOS/Android)和多个应用程序(如Web浏览器、Office365、PhotoShop、Adobe)广泛使用的智能体方面,目前的最新技术仍存在显著差距,大多数先前的工作都集中在限制应用程序或平台上。 由 shadow发布于 2025-03-05 08:35:28 大语言模型语言模型智能体 阅读次数 654
[智能分析]反思AI智能体创业模式:关注度不是全部,真实需求才是关键 过去几个月,市场对AI智能体项目的关注度曾一度飙升,部分项目市值甚至超过了1亿美元。然而,随着市场的回调和流动性逐渐稀薄,许多项目的真实价值和可持续性开始受到质疑。当前,成功的AI智能体项目的市值普遍降至约1000万美元,这一现象反映出关注度并非成功的唯一指标,真正的市场需求和用户价值才是关键。 过去的AI智能体模式往往侧重于吸引开发者的关注,通过夸张概念来吸引眼球。然而,这种模式的缺陷在于缺乏差异化,许多项目甚至没有实际产品,导致市场上充斥着重... 由 有贸发布于 2025-03-02 13:33:49 市场需求智能体AI工具 阅读次数 935