[博客翻译]在大型语言模型时代,软件的可塑性转型


原文地址:https://www.geoffreylitt.com/2023/03/25/llm-end-user-programming


随着大型语言模型(LLMs)的快速发展,计算机用户可能很快就能编写小型代码。这将对软件的生产和分发带来什么样的结构性变化呢?

过去几周,科技巨头们纷纷发布新成果。OpenAI推出了GPT-4,展现了在编码等多方面的能力提升。微软的研究也展示了GPT-4如何能无提示生成复杂的3D游戏代码。此外,还有针对GPT的插件出现,比如ReAct工具,让用户能更便捷地查询数据。

人们自然会好奇,这些技术将如何影响软件的创作。一方面,专业的开发人员可能会因LLMs而变得更高效,因为GitHub Copilot已经证明了这一点。这让人安心,因为它保证了开发者的职业前景,并暗示软件生产方式不会有根本性的改变。

然而,我认为这只是部分答案。尽管我确信LLMs将成为专业程序员的有用工具,但过于关注这个狭窄的应用可能会错过更大的潜在变革。未来,所有电脑用户可能会有能力从零开始创建小型软件工具,或者描述他们希望对现有软件进行的修改。换言之,LLMs将显著提升终端用户编程的工具支持,使普通人无需陷入复杂编程的繁琐,就能充分利用计算机的通用能力。

如果这个假设成真,我们可能会见证一些意想不到的软件使用方式变化:

  • 即时脚本:用户每天都会让AI创作并执行几十次脚本来处理数据分析、视频编辑或自动化繁琐任务。
  • 一次性GUI:人们会用AI为特定任务创建完整的GUI应用,只包含所需功能,没有冗余。
  • 自主开发:企业会更多地内部开发符合定制需求的软件,而不是购买现成的SaaS,因为定制的成本更低。
  • 扩展和修改:消费者和企业要求能够扩展和修改现有的软件,以适应个人工作流程。
  • 组合创新:用户可以融合最喜欢应用的最佳特性,创造出全新的混合体。

这些变化不仅会让软件开发过程更快,还会改变软件的产生方式、由谁创造以及为何目的。

关于LLMs和可塑性软件系列探讨:

这是一个话题丰富的领域。在接下来的一系列文章中,我将深入探讨这些由LLMs可能带来的广泛变化,包括用户与软件交互模式的演变,以及如何通过这些新技术更好地赋能用户。我会讨论的问题包括:

  • 交互模式:何时需要聊天机器人,何时需要一次性脚本,又或者定制的临时GUI?
  • 软件定制:LLMs如何支持用户自定义、重组和扩展软件?
  • 意图表达:用户如何与LLMs进行互动,明确他们的需求?
  • 数据转换:模糊的数据翻译能力如何促进共享数据平台的实现?
  • 用户权力:在LLMs时代,我们应该如何看待授权和自动化的关系?

如果你想要了解这些想法的后续内容,可以通过订阅我的电子邮件通讯或RSS来获取。文章更新频率不会很高,每月最多一次。

何时选择聊天机器人,何时不选?

在LLMs时代,用户交互模型会发生怎样的转变?一个关键问题是,哪些任务更适合聊天界面?我认为这个问题对于思考如何赋予用户权力至关重要。

先预览一下:虽然GPT-4比Siri强大得多,但仍有许多任务并不适合聊天式界面,我们仍然需要图形用户界面。随后,我们将讨论如何结合LLMs来构建UI,实现更深层次的交互。

当触及核心问题时,我们会发现,虽然LLMs在某些场景下能帮助我们编写代码,比如网页抓取或简单的Excel公式,但这并不意味着它们能完全取代直接操作。例如,使用GPT来重新排序网站或添加阅读时间,不如直接在表格中操作直观。用户界面的价值在于,它能让用户看到底层数据的直接视图,进行快速操作,并且可以直接修改公式,从而获得更多的控制权。

23.png

下一篇文章将深入探讨用户界面与聊天机器人的关系,但现在让我们暂时偏离主题,思考一下GPT真的能编写代码吗?

GPT真的能写代码吗?

目前,GPT-4的编码能力如何评价?概括来说,它既有令人印象深刻的例子,也有失败的情况。它能处理数据处理的Python代码,也能完成网站数据抓取。微软的一项研究甚至显示,GPT-4能生成运行在浏览器中的复杂3D游戏。然而,它在解决算法问题时仍会困惑,而且在某些高级功能上还有待完善,比如React应用的交互设计。

乐观来看,LLMs具有迭代能力,能根据用户的反馈调整。它们能与用户互动,提出问题以细化需求,并利用常识填充不完整的信息。虽然这并非易事,但预计会有进展。我已经看到GPT-4能询问我对需求的澄清。

另一个关键点是,GPT-4在编码能力上较GPT-3有了显著提升。这意味着模型性能还在不断提升,未来的版本可能更加出色。

总的来说,LLMs对专业编程和终端用户编程的挑战有所不同。前者可能需要创新算法,而后者则更侧重于拼接库和简单逻辑。不过,对于新手用户来说,错误的后果更为严重,但他们也能在实践中摸索前行。

聊天界面的局限性

现在回到主题,计算新时代的交互模式将会如何?我们是否只需要自然语言与计算机交谈?为了清晰思考,我们需要认识到,聊天机器人有其局限性。首先,它们的功能有限,如Siri这样的例子就明显不足。更重要的是,无论机器人多么智能,聊天始终是一种有限的交互方式。

以OpenAI的Greg Brockman在推特上使用GPT修剪视频为例,虽然这是一项惊人展示,但对于熟悉计算机的人来说,它也显得有些过时。因为我们可以直接在手机应用上进行精细的视频编辑,远比通过对话描述操作要高效得多。

现在我们有了基准对比。如果LLMs能够像人类顾问一样提供灵活性,但速度和成本却大为降低,那么这将如何改变现状?虽然现在还不现实,但未来这种可能性会增加。LLMs的优点在于成本低、响应快,但对话交流需要消耗用户的意识,无法达到驾驶般流畅的体验。

咨询模式与应用模式的对比

让我们从更宏观的角度来看待聊天与直接操作的差异。想象你需要获取业务数据,是求助于团队顾问,还是使用自助分析平台。前者灵活,但昂贵;后者快速且便宜,但功能受限。

引入LLMs后,如果可以替代顾问团队,那么成本和响应速度将大幅改善。然而,对话式的交互仍然慢于图形用户界面,且需要用户时刻保持意识清醒。

另一方面,如果LLMs被用于应用开发,我们可以在一开始就向AI提问,获取使用指导。更重要的是,LLMs开发者能实时响应用户的需求,快速实现新功能,而不仅仅是为我们团队定制。

然而,这还停留在设想阶段,许多现实技术限制了这种即时定制的可能性。

双环交互的力量

我们已经看到了两种交互模式:内环是直接操作,通过强大的图形界面快速实现;外环则是用户向LLMs开发者提供反馈,推动工具的改进。这样,用户既能享受直观操作的乐趣,又能获得定制化功能的灵活性。

从应用到计算媒介

这个双环概念让你想到了什么?就像电子表格,它允许你在单元格中输入数字进行模拟,同时也可以编辑公式,实现工具的自我扩展。

在电子表格的例子中,单个用户可能会遇到知识瓶颈,但团队协作使得工具变得更具弹性。非程序员可以负责大部分开发,通过协作学习和掌握更复杂的技巧。

在LLMs的世界里,用户可以主要驱动工具的创建,但遇到困难时寻求技术帮助。随着时间推移,他们能学会更多,因为在这个过程中,他们既是使用者也是开发者。

总结与展望

这种结合了直接操作和AI辅助的计算媒介世界颇具吸引力。用户可以深入挖掘工具的潜力,同时逐渐减少对AI的依赖,通过学习和实践提升自己的技能。在ChatGPT时代,用户可能过于依赖AI,而在计算媒介中,这种依赖会随着他们在媒介中的熟练度逐渐减小。