• [论文翻译]扩展通用数据分析智能体 (Data-Analytic Agents)

    数据分析智能体 (Data-analytic Agent) 正成为自动化科学发现和实现创新人工智能愿景的关键催化剂。然而,当前方法严重依赖基于专有模型的提示工程或多智能体框架,而开源模型在处理现实分析所需的多样化格式、大规模数据文件以及长周期多步推理时仍面临困难。本文提出DATAMIND——一个可扩展的数据合成与智能体训练方案,旨在构建通用型数据分析智能体。该方法解决了构建开源数据分析智能体的三个关键挑战:数据资源不足、训练策略不当以及基于代码的多轮执行不稳定。具体而言,DATAMIND采用:1)细粒度任务分类与递归式由易到难任务组合机制,提升合成查询的多样性与难度;2)基于知识增强的轨迹采样策略,辅以模型驱动和规则驱动的过滤机制;3)结合监督微调与强化学习损失的动态可调训练目标;4)内存节约型且稳定的代码多轮执行框架。基于此,我们构建了DATAMIND-12K——一个涵盖多领域、多任务类别及多数据文件格式的高质量数据分析任务轨迹集。在DATAMIND-12K上训练的DATAMIND-14B模型在多项数据分析基准测试中以71.16%的平均得分达到最优性能,超越最强的专有基线DeepSeek-V3.1和GPT-5。我们的DATAMIND-7B模型同样以68.10%的得分在所有开源模型中表现最佳。通过分析实验,我们总结了探索性试验中获得的部分经验性发现,旨在为学界提供可操作的智能体训练洞见。我们将向社区发布DATAMIND-12K及DATAMIND-7B/14B模型以支持未来研究。
  • [论文翻译]ARTEMIS-DA:面向数据分析多步洞察合成的高级推理与转换引擎

    本文提出了一种用于多步骤数据分析洞察合成的高级推理与转换引擎(ARTEMIS-DA),这是一种旨在增强大语言模型(LLM)解决复杂多步骤数据分析任务能力的新型框架。ARTEMIS-DA整合了三个核心组件:规划器(Planner)将复杂用户查询分解为包含数据预处理、转换、预测建模和可视化的结构化顺序指令;编码器(Coder)动态生成并执行Python语言代码来实现这些指令;图表解析器(Grapher)通过解读生成的可视化结果来获取可操作的见解。通过协调这些组件之间的协作,ARTEMIS-DA能有效管理涉及高级推理、多步骤转换以及跨多种数据模态合成的复杂分析工作流。该框架在WikiTable Questions和TabFact等基准测试中达到了最先进(SOTA)性能,展示了其精确且自适应地处理复杂分析任务的能力。通过将大语言模型的推理能力与自动化代码生成执行及视觉分析相结合,ARTEMIS-DA为多步骤洞察合成提供了一个强大、可扩展的解决方案,解决了数据分析领域的诸多挑战。
  • [博客翻译]如何仅使用Nginx和纯bash跟踪网站分析

    今天,我要和大家分享一个小技巧,仅使用bash和nginx来实现类似Google Analytics的网站追踪服务。 你可能会问...“为什么要这么做?”;你看,很久以前,我决定只用C语言来制作我的个人网站。 没错,就是你现在正在浏览和阅读的这个网站;我使用了很多现有的“markdown -> h...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是AI智能体平台
在这里您可以获得本平台自训练的
AI智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众知识的桥梁
让科学生活融入日常
登陆小程序
AI数字人随身守护
智慧管理更高效
生活品质悄然升级

千集助理