[博客翻译]在大型语言模型时代，软件的可塑性转型

随着大型语言模型（LLMs）的快速发展，计算机用户可能很快就能编写小型代码。这将对软件的生产和分发带来什么样的结构性变化呢？

过去几周，科技巨头们纷纷发布新成果。OpenAI推出了GPT-4，展现了在编码等多方面的能力提升。微软的研究也展示了GPT-4如何能无提示生成复杂的3D游戏代码。此外，还有针对GPT的插件出现，比如ReAct工具，让用户能更便捷地查询数据。

人们自然会好奇，这些技术将如何影响软件的创作。一方面，专业的开发人员可能会因LLMs而变得更高效，因为GitHub Copilot已经证明了这一点。这让人安心，因为它保证了开发者的职业前景，并暗示软件生产方式不会有根本性的改变。

然而，我认为这只是部分答案。尽管我确信LLMs将成为专业程序员的有用工具，但过于关注这个狭窄的应用可能会错过更大的潜在变革。未来，所有电脑用户可能会有能力从零开始创建小型软件工具，或者描述他们希望对现有软件进行的修改。换言之，LLMs将显著提升终端用户编程的工具支持，使普通人无需陷入复杂编程的繁琐，就能充分利用计算机的通用能力。

如果这个假设成真，我们可能会见证一些意想不到的软件使用方式变化：

即时脚本：用户每天都会让AI创作并执行几十次脚本来处理数据分析、视频编辑或自动化繁琐任务。
一次性GUI：人们会用AI为特定任务创建完整的GUI应用，只包含所需功能，没有冗余。
自主开发：企业会更多地内部开发符合定制需求的软件，而不是购买现成的SaaS，因为定制的成本更低。
扩展和修改：消费者和企业要求能够扩展和修改现有的软件，以适应个人工作流程。
组合创新：用户可以融合最喜欢应用的最佳特性，创造出全新的混合体。

这些变化不仅会让软件开发过程更快，还会改变软件的产生方式、由谁创造以及为何目的。

关于LLMs和可塑性软件系列探讨：

这是一个话题丰富的领域。在接下来的一系列文章中，我将深入探讨这些由LLMs可能带来的广泛变化，包括用户与软件交互模式的演变，以及如何通过这些新技术更好地赋能用户。我会讨论的问题包括：

交互模式：何时需要聊天机器人，何时需要一次性脚本，又或者定制的临时GUI？
软件定制：LLMs如何支持用户自定义、重组和扩展软件？
意图表达：用户如何与LLMs进行互动，明确他们的需求？
数据转换：模糊的数据翻译能力如何促进共享数据平台的实现？
用户权力：在LLMs时代，我们应该如何看待授权和自动化的关系？

如果你想要了解这些想法的后续内容，可以通过订阅我的电子邮件通讯或RSS来获取。文章更新频率不会很高，每月最多一次。

何时选择聊天机器人，何时不选？

在LLMs时代，用户交互模型会发生怎样的转变？一个关键问题是，哪些任务更适合聊天界面？我认为这个问题对于思考如何赋予用户权力至关重要。

先预览一下：虽然GPT-4比Siri强大得多，但仍有许多任务并不适合聊天式界面，我们仍然需要图形用户界面。随后，我们将讨论如何结合LLMs来构建UI，实现更深层次的交互。

当触及核心问题时，我们会发现，虽然LLMs在某些场景下能帮助我们编写代码，比如网页抓取或简单的Excel公式，但这并不意味着它们能完全取代直接操作。例如，使用GPT来重新排序网站或添加阅读时间，不如直接在表格中操作直观。用户界面的价值在于，它能让用户看到底层数据的直接视图，进行快速操作，并且可以直接修改公式，从而获得更多的控制权。

下一篇文章将深入探讨用户界面与聊天机器人的关系，但现在让我们暂时偏离主题，思考一下GPT真的能编写代码吗？

GPT真的能写代码吗？

目前，GPT-4的编码能力如何评价？概括来说，它既有令人印象深刻的例子，也有失败的情况。它能处理数据处理的Python代码，也能完成网站数据抓取。微软的一项研究甚至显示，GPT-4能生成运行在浏览器中的复杂3D游戏。然而，它在解决算法问题时仍会困惑，而且在某些高级功能上还有待完善，比如React应用的交互设计。

乐观来看，LLMs具有迭代能力，能根据用户的反馈调整。它们能与用户互动，提出问题以细化需求，并利用常识填充不完整的信息。虽然这并非易事，但预计会有进展。我已经看到GPT-4能询问我对需求的澄清。

另一个关键点是，GPT-4在编码能力上较GPT-3有了显著提升。这意味着模型性能还在不断提升，未来的版本可能更加出色。

总的来说，LLMs对专业编程和终端用户编程的挑战有所不同。前者可能需要创新算法，而后者则更侧重于拼接库和简单逻辑。不过，对于新手用户来说，错误的后果更为严重，但他们也能在实践中摸索前行。

聊天界面的局限性

现在回到主题，计算新时代的交互模式将会如何？我们是否只需要自然语言与计算机交谈？为了清晰思考，我们需要认识到，聊天机器人有其局限性。首先，它们的功能有限，如Siri这样的例子就明显不足。更重要的是，无论机器人多么智能，聊天始终是一种有限的交互方式。

以OpenAI的Greg Brockman在推特上使用GPT修剪视频为例，虽然这是一项惊人展示，但对于熟悉计算机的人来说，它也显得有些过时。因为我们可以直接在手机应用上进行精细的视频编辑，远比通过对话描述操作要高效得多。

现在我们有了基准对比。如果LLMs能够像人类顾问一样提供灵活性，但速度和成本却大为降低，那么这将如何改变现状？虽然现在还不现实，但未来这种可能性会增加。LLMs的优点在于成本低、响应快，但对话交流需要消耗用户的意识，无法达到驾驶般流畅的体验。

咨询模式与应用模式的对比

让我们从更宏观的角度来看待聊天与直接操作的差异。想象你需要获取业务数据，是求助于团队顾问，还是使用自助分析平台。前者灵活，但昂贵；后者快速且便宜，但功能受限。

引入LLMs后，如果可以替代顾问团队，那么成本和响应速度将大幅改善。然而，对话式的交互仍然慢于图形用户界面，且需要用户时刻保持意识清醒。

另一方面，如果LLMs被用于应用开发，我们可以在一开始就向AI提问，获取使用指导。更重要的是，LLMs开发者能实时响应用户的需求，快速实现新功能，而不仅仅是为我们团队定制。

然而，这还停留在设想阶段，许多现实技术限制了这种即时定制的可能性。

双环交互的力量

我们已经看到了两种交互模式：内环是直接操作，通过强大的图形界面快速实现；外环则是用户向LLMs开发者提供反馈，推动工具的改进。这样，用户既能享受直观操作的乐趣，又能获得定制化功能的灵活性。

从应用到计算媒介

这个双环概念让你想到了什么？就像电子表格，它允许你在单元格中输入数字进行模拟，同时也可以编辑公式，实现工具的自我扩展。

在电子表格的例子中，单个用户可能会遇到知识瓶颈，但团队协作使得工具变得更具弹性。非程序员可以负责大部分开发，通过协作学习和掌握更复杂的技巧。

在LLMs的世界里，用户可以主要驱动工具的创建，但遇到困难时寻求技术帮助。随着时间推移，他们能学会更多，因为在这个过程中，他们既是使用者也是开发者。

总结与展望

这种结合了直接操作和AI辅助的计算媒介世界颇具吸引力。用户可以深入挖掘工具的潜力，同时逐渐减少对AI的依赖，通过学习和实践提升自己的技能。在ChatGPT时代，用户可能过于依赖AI，而在计算媒介中，这种依赖会随着他们在媒介中的熟练度逐渐减小。