签到
立即签到
签到可以获得积分哦!
公告
AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价

最新资讯更多
-
与大型语言模型的多轮交互通常在对话历史中保留助手自身过去的回应。在本工作中,我们重新审视这一设计选择,通过提问大型语言模型是否受益于对其自身先前回应的条件化。使用真实场景中的多轮对话,我们在三个开源推理模型和一个最先进的模型中比较标准的(全上下文)提示方法与仅用户轮次提示方法。仅用户轮次提示方法省略了所有之前的助手回应。令我们惊讶的是,我们发现在大部分轮次中,移除先前的助手回应不会影响回应质量。省略助手端历史记录可以将累积上下文长度减少高达10倍。为了解释这一结果,我们发现多轮对话包含相当比例(36.4%)的自包含提示,并且许多后续提示提供了足够的指令,仅使用当前用户轮次和先前用户轮次就可以回答。在分析仅用户轮次提示明显优于全上下文的情况时,我们识别出了上下文污染的实例,其中模型过度依赖其先前的回应,引入错误、幻觉或跨轮次传播的风格伪影。受这些发现的激励,我们设计了一种上下文过滤方法,有选择地省略助手端上下文。我们的发现表明,有选择地省略助手历史记录可以改进回应质量,同时减少内存消耗。
喜欢 0 评论 0
-
在电力配电系统中进行准确的故障检测和定位至关重要,尤其是随着分布式能源资源(DERs)的日益整合,这些资源为电网运行注入了更大的变异性和复杂性。本研究提出了FaultXformer,一种基于Transformer编码器架构的方法,用于利用相位测量单元(PMU)获取的实时电流数据进行自动故障分析。该方法利用时间序列电流数据在第一阶段初始提取丰富的时间信息,这对于识别故障类型和精确确定其在多个节点中的位置至关重要。在第二阶段,这些提取的特征被处理以区分不同的故障类型,并在配电系统内识别相应的故障位置。因此,这个双阶段Transformer编码器管道能够实现高保真度的表示学习,大幅提升了模型的性能。该模型在IEEE 13节点测试馈线生成的数据集上进行了验证,该数据集包含20个独立故障位置和多个分布式能源整合场景的仿真,利用四个战略性位置的PMU电流测量数据。为了展示稳健的性能评估,采用了分层10折交叉验证。FaultXformer在故障类型分类中达到了平均准确率98.76%,在故障位置识别中达到了98.92%的准确率(交叉验证范围内),分别在分类准确率上超过了卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等传统深度学习基线1.70%、34.95%和2.04%,在定位准确率上分别超过了10.82%、40.89%和6.27%。这些结果展示了所提出模型在分布式能源大规模渗透情况下的有效性。
喜欢 0 评论 0
-
GPU核心优化对现代深度学习至关重要,但仍然是一项需要深入硬件专业知识的高度专业化任务。尽管大语言模型(LLMs)在通用编程中表现强劲,但在CUDA核心生成方面仍不具竞争力,不如torch.compile等基于编译器的系统。现有的CUDA代码生成方法要么依赖于无需训练的改进,要么在固定的多轮执行反馈循环内微调模型,但两种范式都无法从根本上提升模型内在的CUDA优化能力,导致性能提升有限。我们提出CUDA Agent,一个大规模智能体强化学习系统,通过三个组件开发CUDA核心专业知识:可扩展的数据合成管道、具有自动化验证和性能分析的技能增强型CUDA开发环境以提供可靠的奖励信号,以及支持稳定训练的强化学习算法技术。CUDA Agent在KernelBench上取得了最先进的结果,在KernelBench Level-1、Level-2和Level-3分项上分别比torch.compile快100%、100%和92%,在最困难的Level-3设置上比Claude Opus 4.5和Gemini 3 Pro等最强专有模型的性能高约40%。
喜欢 0 评论 0
-
神经网络被假设实现了可解释的因果机制,但验证这一点需要找到因果抽象——一个更简单的高层结构因果模型(SCM),在干预下对网络保持忠实。发现这样的抽象很困难:通常需要蛮力交换干预或重新训练。我们通过将结构化剪枝视为近似抽象上的搜索来重新框架化该问题。将训练后的网络视为确定性SCM,我们推导出干预风险目标,其二阶展开产生用常数替换单元或将其折叠到相邻单元中的闭式标准。在均匀曲率下,我们的评分减少为激活方差,将基于方差的剪枝作为特殊情况进行恢复,同时澄清其何时失败。所得程序从预训练网络中有效地提取稀疏的、干预忠实的抽象,我们通过交换干预来验证这一点。
喜欢 0 评论 0
-
我们提出了一个最小化的智能体基线方案,用于实现跨不同基于人工智能的定理证明器架构的系统比较。该设计实现了最先进系统中的核心特征:迭代证明细化、库搜索和上下文管理。我们使用定性不同的基准来评估我们的基线,比较各种流行的模型和设计选择,并展示了与最先进方法相当的性能,同时使用了更简单的架构。我们的结果证明了迭代方法相比多次单次生成具有一致的优势,特别是在样本效率和成本有效性方面。该实现被发布为开源版本,作为未来研究的参考候选,也作为社区可访问的证明器。
喜欢 0 评论 0
-
当今许多读者在评估在线新闻的可信度时面临困难,因为可靠的报道与错误信息并存。TREC 2025 DRAGUN (Detection, Retrieval, and Augmented Generation for Understanding News,检测、检索和增强生成用于新闻理解)赛道为研究人员提供了一个平台,开发和评估辅助性RAG系统,通过生成读者导向的、充分归属的报告,支持读者的新闻可信度评估。作为DRAGUN赛道的组织者,我们描述了我们新开发的资源,以便对该赛道的任务进行重用。赛道包含两个任务:(任务1)问题生成,产生10个排序的调查问题;以及(任务2,主要任务)报告生成,产生一份基于MS MARCO V2.1分段语料库的250字报告。作为赛道评估的一部分,我们要求TREC评估员为30篇不同的新闻文章创建带有预期简短答案的重要性加权评分标准。这些评分标准代表了评估员认为读者评估文章可信度时需要了解的信息。评估员随后使用他们的评分标准手动评判参赛队伍提交的运行结果。为了使这些任务及其评分标准可重用,我们创建了一个自动化流程来评判不属于原始评估的运行结果。我们证明了相比TREC人工评估,我们的AutoJudge能够很好地排序现有的运行结果(任务1的Kendall's τ = 0.678,任务2的τ = 0.872)。这些资源既能够用于评估辅助性新闻可信度评估的RAG系统,也能够通过人工评估作为基准,支持改进自动化RAG评估的研究。
喜欢 0 评论 0
积分排行
gingo104 帖子 • 8 评论
1431
137****06310 帖子 • 0 评论
997
weilaiweiding52 帖子 • 1 评论
821
icodebase58 帖子 • 1 评论
519
openoker171 帖子 • 23 评论
298
boatingman0 帖子 • 1 评论
90
toc0 帖子 • 0 评论
60
Van3 帖子 • 0 评论
42
shadow5 帖子 • 0 评论
28
111242 帖子 • 4 评论
24
友情链接 查看更多>>
导航打造最强静态导航网站
135AI排版公众号智能文案生成与自动排版工具
二次元数字人视频生成平台二次元数字人视频生成平台