• [论文翻译]上下文感知元学习

    像 ChatGPT 这样的大语言模型展现出无需微调即可在推理过程中学习新概念的卓越能力。然而,经过训练以在推理时检测新物体的视觉模型却无法复制这种能力,要么表现不佳,要么需要对类似物体进行元训练和/或微调。在这项工作中,我们提出一种元学习算法,通过在不进行微调的情况下于推理过程中学习新视觉概念,从而模拟大语言模型。
  • [论文翻译]基于变分推理的大规模文本属性图学习

    本文研究文本属性图(TAGs)上的学习问题,其中每个节点都与文本描述相关联。这类问题的理想解决方案是将文本和图结构信息与大语言模型和图神经网络(GNNs)相集成。然而,由于同时训练大语言模型和GNNs带来的高计算复杂度,当图规模较大时该问题变得极具挑战性。我们提出了一种高效且有效的解决方案GLEM,通过变分期望最大化(EM)框架融合图结构与语言学习来处理大型文本属性图。GLEM没有选择在大图上同时训练大语言模型和GNNs,而是提出在E步和M步交替更新这两个模块。这种方法允许分别训练两个模块,同时使它们能够交互并相互增强。在多个数据集上的大量实验证明了所提方法的高效性和有效性[1]。
  • [论文翻译]MyGO 多重 CoT:通过双重思维链实现大语言模型自我反思的方法

    近年来,大语言模型 (LLM) 在各种推理和决策任务中展现了令人印象深刻的能力。然而,推理过程的质量和连贯性仍可以通过增强的自我反省和自我审查得到提升。本文提出了一种名为 Multiplex CoT (Chain of Thought) 的方法,通过启动双重 Chain of Thought (CoT) 思维,使大语言模型能够在推理过程中模拟一种自我审查的形式。Multiplex CoT 利用迭代推理的力量,模型首先生成初始的思维链,随后通过第二轮思维生成来批判和优化这一推理过程。这种递归方法能够生成更加连贯、逻辑性强且稳健的答案,从而提升整体决策过程。我们展示了如何通过简单的提示工程在现有的大语言模型架构中有效实现这一方法,达到类似于学习-优化模型 (LRM) 的效果,而无需额外的训练。此外,我们还提供了在 Google Colab 中实现该方法的实用指南,便于将其集成到实际应用中。
  • [论文翻译]针对 Arm CPU 上大语言模型推理的高度优化内核与细粒度码本

    大语言模型 (LLMs) 已经彻底改变了我们对语言理解和生成的思考方式,吸引了研究人员和开发者的广泛关注。然而,由于这些模型的空前规模和资源需求,部署它们进行推理一直是一个重大挑战。在商用 Arm CPU 上高效执行大语言模型将使其能够扩展到数十亿台紧凑设备,如智能手机和其他小型设备。虽然将模型权重量化为亚字节精度(例如,每个权重 4 比特或更少)已成为缓解内存压力的一个有前景的解决方案,但通常用于大语言模型量化的分组量化格式具有显著的计算开销和资源密集的解量化过程。因此,较高比例的计算指令不执行乘法运算,即实际工作,这使得它们无法满足在商用 CPU 上部署的大语言模型变体所需的延迟要求。此外,基于 CPU 的大语言模型推理在以往的研究中受到的关注较少。在本工作中,我们提出了一组高度优化的内核来加速大语言模型推理,展示最佳性能,并释放 CPU,特别是 Arm CPU 的全部潜力。这些内核通过在多行输出中分摊操作数加载和权重解包的代价,以及引入优化的交错组数据布局格式和优化解压缩路径以减少不必要的操作和解量化开销,同时最大化向量和矩阵乘法运算的使用,显著提高了 MAC 操作的效率。此外,我们提出了一种基于分组非均匀码本的超低精度量化方法,以更好地匹配大语言模型权重分布中的非均匀模式,使大规模大语言模型能够适应更小的设备,并在生成 Token 时展示出比现有技术更好的吞吐量,同时确保更好的质量。实验表明,与基于 LLaMA.cpp 的解决方案相比,将这些改进应用于 4 比特和 2 比特量化的大语言模型,在单个 Arm CPU 核心上,提示处理至少提高了 \$3-3.2\times\$,自回归解码提高了 \$2\times\$。优化后的内核可在 https://github.com/ggerganov/llama.cpp 获取。
  • [论文翻译]用于马尔可夫大语言模型测试时间扩展的思维原子

    大语言模型 (LLMs) 通过训练时的扩展获得卓越的性能,而测试时的扩展通过在推理过程中进行有效推理进一步增强了它们的能力。然而,随着推理规模的增加,现有的测试时扩展方法受到累积历史信息的影响,这不仅浪费了计算资源,还干扰了有效的推理。为了解决这个问题,我们观察到复杂的推理过程通常通过解决一系列独立的子问题来实现,每个子问题都是自包含且可验证的。这些子问题本质上是原子问题,主要依赖于它们当前的状态而不是累积的历史,类似于马尔可夫过程中的无记忆转移。基于这一观察,我们提出了 Atom of Thoughts (AOT) ,其中推理过程中的每个状态转移包括将当前问题分解为基于依赖的有向无环图,并收缩其子问题,形成一个新的原子问题状态。这种迭代的分解-收缩过程持续进行,直到达到可直接解决的原子问题,自然而然地实现了问题状态之间的马尔可夫转移。此外,这些原子问题可以无缝集成到现有的测试时扩展方法中,使 AOT 成为一个提升推理能力的插件增强。在六个基准测试上的实验证明了 AOT 作为独立框架和插件增强的有效性。值得注意的是,在 HotpotQA 上,当应用于 gpt-4omini 时,AOT 实现了 80.6% 的 F1 分数,超过了 o3-mini 的 3.4% 和 DeepSeek-R1 的 10.6%。代码将在 https://github.com/qixucen/atom 上提供。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理