• [论文翻译]emoDARTS: 联合优化CNN与序列神经网络架构以实现卓越的语音情感识别

    摘要—语音情感识别(SER)对于计算机理解人类交流中的情感至关重要。随着深度学习(DL)的最新进展,SER模型的性能得到了显著提升。然而,设计最优的DL架构需要专业知识和实验评估。幸运的是,神经架构搜索(NAS)为自动确定最佳DL模型提供了潜在解决方案。其中可微分架构搜索(DARTS)是一种特别高效的模型优化方法。本研究提出了emoDARTS,这是一种通过DARTS优化的联合CNN和序列神经网络(SeqNN: LSTM, RNN)架构,可提升SER性能。现有文献支持选择CNN与LSTM耦合来提高性能。
  • [论文翻译]深度学习在微笑识别中的应用

    受深度学习在计算机视觉领域近期成果的启发,我们提出了一种将深度卷积神经网络应用于面部表情识别(特别是微笑识别)的新方法。在Denver Intensity of Spontaneous Facial Action (DISFA) 数据库上,该方法实现了99.45%的微笑识别准确率,显著优于基于手工特征的现有方法(准确率区间为65.55%至79.67%)。
  • [论文翻译]直接反馈对齐可扩展至现代深度学习任务与架构

    尽管反向传播算法是深度学习的核心方法,但它并非万能解药。该算法强制要求逐层顺序更新,导致训练过程无法高效并行化。此外,其生物学合理性正受到质疑。虽然已有替代方案被提出,但在突触不对称性的约束下,尚无方案能适配现代深度学习任务与架构。本文突破这一认知局限,研究了直接反馈对齐 (Direct Feedback Alignment, DFA) 在神经视图合成、推荐系统、几何学习及自然语言处理中的适用性。与先前局限于计算机视觉任务的研究不同,我们的实验表明:DFA 能成功训练多种前沿深度学习架构,其性能接近精调的反向传播算法。当 DFA 与反向传播存在较大差距时(如 Transformer 架构),我们认为这需要重新思考大型复杂架构的常规设计范式。与传统认知相悖的是,本研究证实:即使不依赖权重传输机制,也能攻克具有挑战性的任务。
  • [论文翻译]穿越拥挤山谷的下降——深度学习优化器基准测试

    Descending through a Crowded Valley — Benchmarking Deep Learning Optimizers 穿越拥挤山谷的下降——深度学习优化器基准测试 Robin M. Schmidt * 1 Frank Schneider * 1 Philipp Hennig 1 Robin M. Schmidt * 1 Frank Schneider * 1 Philipp Hennig 1 Abstract 摘要 1. Introduction 1. 引言 Choosi... 选择优化器被认为是深度学习中最关键的设计决策之一,且并非易事。当前不断增长的文献已列出数百种优化方法。在缺乏明确理论指导和决定性实证证据的情况下,决策往往基于经验之谈。本研究中,我们试图用证据支持的启发式方法(即便不是决定性排名)来替代这些经验性结论。为此,我们对15种特别流行的深度学习优化器进行了广泛、标准化的基准测试,同时对各类可选方案进行了简明概述。通过分析超过50,000次独立运行实验,我们得出以下三点结论:(i) 优化器性能在不同任务间差异显著;(ii) 使用默认参数评估多个优化器的效果,与调优单个固定优化器的超参数效果相当;(iii) 虽然未发现某种优化方法在所有测试任务中明显占优,但我们确定了一个显著精简的优化器子集及参数组合,这些选择在实验中普遍能产生有竞争力的结果:ADAM仍是强有力的竞争者,新方法未能显著且持续地超越它。我们的开源成果1可作为经过严格调优的基准,用于更有效评估新型优化方法,且无需额外计算开销。
  • [论文翻译]任务、稳定性、架构与算力:训练更高效的学习型优化器及其自我训练应用

    Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves 任务、稳定性、架构与算力:训练更高效的学习型优化器及其自我训练应用 Luke Metz Google Research, Brain Team lmetz@google.com Luke Metz Google Research, Brain Team lmetz... 正如通过学习函数替代手工设计的特征彻底改变了我们解决感知任务的方式一样,我们相信学习算法将重塑模型训练范式。本研究聚焦于无需用户指定超参数、能训练多种任务的通用学习型优化器。我们提出一种新型神经网络参数化的分层优化器,其可利用验证损失等附加特征实现自动正则化。现有学习型优化器大多仅在单一或少量任务上训练,而我们的优化器在数千个任务上训练,消耗了数量级更高的算力,从而获得更优秀的未知任务泛化能力。这些优化器不仅性能优异,还展现出与一阶优化器截然不同的行为特征:例如能生成具有隐式正则化的更新步骤,并随问题超参数(如批量大小)或架构(如神经网络宽度)变化而自适应调整。最后,这些学习型优化器还显示出对分布外任务(如从零开始自我训练)的潜在适用性。
  • [论文翻译]基于广义策略更新的快速强化学习

    Fast reinforcement learning with generalized policy updates 基于广义策略更新的快速强化学习 André Barretoa1, Shaobo Hou?@, Diana Borsa?, David Silver?, and Doina Precupa.b aDeepMind, London EC4A 3TW, United Kingdom; and bSchool of Computer Science, McGill University, Mont... 强化学习与深度学习的结合为解决当前难以处理的重要序列决策问题提供了一种有前景的方法。这类学习系统面临的主要障碍之一是其所需的数据量。本文提出通过分治法来解决这一问题。我们认为复杂决策问题可以自然地分解为按顺序或并行展开的多个任务。通过为每个任务关联奖励函数,这种问题分解可以无缝融入标准强化学习框架。具体实现方式是对强化学习中两个基本操作——策略改进和策略评估——进行推广。这些操作的广义版本允许利用已解决任务的方案来加速其他任务的求解。若某任务的奖励函数能较好近似为已解决任务奖励函数的线性组合,则可将强化学习问题简化为线性回归。当不满足该条件时,智能体仍可通过已掌握的任务方案与环境交互学习。两种策略都能显著减少解决强化学习问题所需的数据量。
  • [论文翻译]0.8% 奈奎斯特计算鬼成像的非实验性深度学习实现

    我们提出了一种基于深度学习(deep learning)和定制粉红噪声散斑图案的计算鬼成像框架。本工作中的深度神经网络仅通过模拟训练就能学习传感模型并提升图像重建质量。为验证本工作的亚奈奎斯特采样水平,我们在不同噪声条件下的多种采样率场景中,对比了传统计算鬼成像结果、使用白噪声和粉红噪声通过深度学习重建的成像结果。实验表明,即使目标物体不在训练数据集中,该方案仍能在0.8%采样率下获得高质量图像,并对噪声环境具有强鲁棒性。该方法特别适用于需要低采样率、快速重建效率或面临强噪声干扰的各类应用场景。
  • [论文翻译]DEMONSTRATE–SEARCH–PREDICT: 结合检索和语言模型的知识密集型 NLP

    检索增强的上下文学习已成为一种强大的方法,用于使用冻结的语言模型(LM)和检索模型(RM)处理知识密集型任务。现有工作将这些模型结合在简单的“检索-然后-读取”流程中,其中RM检索段落并将其插入LM提示中。为了充分发挥冻结LM和RM的潜力,我们提出了DEMONSTRATE–SEARCH–PREDICT(DSP)框架,该框架依赖于在LM和RM之间通过复杂的流程传递自然语言文本。DSP可以表达高级程序,这些程序引导流程感知的演示、搜索相关段落并生成基于事实的预测,系统地将问题分解为LM和RM可以更可靠处理的小型转换。我们编写了新颖的DSP程序,用于在开放域、多跳和对话环境中回答问题,在早期评估中确立了新的最先进的上下文学习结果,并分别相对于原始LM(GPT-3.5)、标准的检索-然后-读取流程和同时期的自问流程,实现了37-120%、8-39%和80-290%的相对增益。我们在https://github.com/stanfordnlp/dsp上发布了DSP。
  • [智能分析]DeepSeek 开源周发布 DeepEP 和 DeepGEMM

    在人工智能技术快速发展的背景下,开源项目的推出为研究者和开发者提供了更为高效的工具和资源。2025年2月26日,DeepSeek 开源周迎来了其第二弹,推出了专为混合专家模型(MoE)和专家并行(EP)设计的开源通信库——DeepEP。该库旨在提升大规模 AI 模型的训练和推理效率,犹如为 MoE 模型构建了一条“数据高速公路”,使得多个“专家”之间的协作更加迅速和高效。 与此同时,DeepSeek 还宣布了第三弹的开源项目——DeepGEMM,进一步丰富了其开源生态系统。这些新工具的发布不仅为 AI 开发...
  • [智能分析]DeepSeek R1 报告

    在人工智能(AI)领域,DeepSeek R1模型的推出标志着一个重要的里程碑。作为中国DeepSeek公司开发的最新AI模型,DeepSeek R1以其卓越的推理能力和高效的资源利用率迅速引起了全球技术界的关注。本文将深入探讨DeepSeek R1的特点、性能、与OpenAI的o1模型的比较,以及其对市场的影响。DeepSeek R1是一种“推理优先”的AI模型,旨在超越传统语言模型,特别是在数学和编码任务上表现突出。根据报道,DeepSeek R1的训练成本仅为55...
  • [博客翻译]PyTorch原生架构优化:Torchao

    欢迎来到硅谷,在2024年的PyTorch大会(September 18-19)上,一起探索最新的深度学习技术。在这里,你可以学习如何: 入门:无论是本地运行还是通过支持的云平台快速开始,PyTorch都能帮你轻松上手。 教程:了解PyTorch新功能的教程,帮助你掌握基础技巧。 基础知识:熟悉PyTorch的核心概念和模块,打下坚实基础。 PyTorch实战:提供可直接部署的小型代码示例,让你快速实践。 YouTube系列:通过引人入胜的视频教程,深入理解PyTorch核心概念。...
  • [博客翻译]PCA不是万灵药(2013)

    Patreon 今年早些时候,我参加了一家知名科技初创公司的面试,这家公司是众多声称比谷歌有更难的面试、更具挑战性的工作和更聪明员工的公司之一。我的第一位面试官约翰给我展示了一番标准流程:配备了健康零食与糖果的迷你厨房;围绕着桌上足球的二十多岁的白人男性;明亮的空间配以可爱主题;还有一个用于视频游戏的大电视;最后是洗手间。他带我进入一间类似壁橱大小的会议室,我们开始进入正题。在讨论了基本的数据结构和算法之后,我们进入了核心问题:你会如何设计一个针对“foo”的分类系统2?我们讨论了...
  • [机器生成]深度学习入门:揭示机器学习新维度的革新力量与实战应用

    深度学习是AI领域的革新力量,它模拟人脑神经网络结构,通过多层非线性变换自动提取数据特征,实现模式识别、图像分类(CNN)、语音识别(RNN)等技术突破。初学者需掌握神经网络基础、反向传播算法,并建立数学基础。实践中,理论与应用并重,如Google改进搜索引擎、Facebook人脸识别。展望未来,鼓励投身深度学习研究,共同挖掘智慧宝藏,推动人工智能发展。
  • [论文翻译]DenseNet:密集连接的卷积网络

    最近的工作表明,如果它们在接近输入的层和接近输出的层之间包含较短的连接,则卷积网络可以的深度可以显著增加,准确度更高,并且更易于训练。在本文中,我们采纳这一观点,并提出了密集连接卷积网络(DenseNet),它以前馈的方式将每个层连接到其他层。而传统的卷积网络 L 层网络具有 L 层连接 (每个层和其后续层之间)---我们的网络有\$ \frac{L(L+1)}{2} \$直接连接。对于每层,所有前面图层的特征映射用作输入,并且其自己的特征映射用作所有后续层的输入。。DenseNet有几个引人注目的优势:它们缓解了消失的渐变问题,加强了特征传播,鼓励功能重用,并大大减少参数的数量。我们在四个竞争激烈的物体识别基准任务(CIFAR-10,CiFar-100,SVHN和Imagenet)上评估我们所提出的架构。DenseNet在大多数SOTA情况下获得显着改进,同时需要较少的计算来实现高性能。代码和预先训练的模型参见https://github.com/liuzhuang13/densenet。
  • [论文翻译]STYLEGAN:生成对抗网络中一种基于样式的生成器结构

    我们借鉴风格迁移(style transfer)的想法,提出了一种用于生成对抗网络的新生成器体系结构。 新的架构可自动学习,无监督地分离高级属性(例如,在人脸上训练时的姿势和身份)以及在生成的图像中(例如雀斑,头发)随机变化,并且能够直观地、按特定尺度地控制合成。 新的生成器在传统的生成质量指标方面提高了最新技术水平值,显示出更好的插值特性,并且可以更好地解决变异的潜在因素。 为了量化插值质量和分解,我们提出了两种适用于任何生成器架构的新的自动化方法。最后,我们介绍了一个新的,高度多样化和高质量的人脸数据集。
  • [论文翻译]LeNet:基于梯度学习的文档识别

    用BP算法训练多层神经网络,是梯度学习技术的一个成功的案例。本文给出一个合适的网络架构,通过bp算法可以计算出一个复杂的决策面,来实现对于类似手写体字符这样高维模式的分类。本文回顾了各种不同的手写体识别方法,并基于标准任务比较这些算法。卷积神经网络,专门为处理变化较大的二维图形而设计,显示出超越所有其他技术的能力。
  • [论文翻译]MTCNN:基于多任务级联卷积网络的联合人脸检测与对齐

    由于各种姿势,照明条件和遮挡情况,在无约束环境下的人脸检测与人脸对齐仍十分具有挑战性。 最近的研究表明,深度学习方法可以在这两项任务上取得令人瞩目的表现。在本文中,我们提出了一个深度级联的多任务网络,利用检测和对齐之间的内在联系来提高他们的性能。
  • [论文翻译]ESRGAN: 增强型超分辨率生成对抗网络

    超分辨率生成对抗网络(SR GAN)[1]是一项开创性的工作,它能够在单图像超分辨率任务中生成逼真的纹理。然而,虚幻的细节通常伴随着令人不快的伪影。 为了进一步提高视觉质量,我们深入研究了SRGAN 网络架构,对抗性损失和感知损失这三个关键组成部分,并对其中每一项都进行了改进,产生了一个增强型SRGAN(ESRGAN)。 特别需要注意的是,我们在没有使用批量标准化的情况下引入RRDB Residual-in-Residual Dense Block作为基本网络构建单元。 此外,我们借用RaGAN [2]的思想来让判别器预测图像的相对真实性而不是图像的绝对真实性。 最后,我们使用激活前的特征来改善感知损失,这可以提供对亮度一致性和纹理恢复更强的监督力。 从这些改进中,所提出的ESRGAN实现了更好的视觉质量,具有比SRGAN更逼真和自然的纹理并且赢得了PIRM2018-SR Challenge1中的第一名[3]。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理