学会了第二种语言,就拥有了第二个灵魂。 — Charlemagne

01

世界上大约有7000种语言。

语言反映了人类思维的特征和结构。

从基础概念,到抽象逻辑,不同语言在数字使用、确定方向、分辨颜色,事物的语法性别,以及文本结构上产生了显著的差异,从而塑造了人们不同的思维方式。

在电影《降临》中,主角语言学家 Louise 破译了外星文字,获得与外星智能七肢桶一样的认知思维,并因此理解了没有先后、没有因果的非线性时间,拥有了仅有人类语言认知能力的普通人看来不可思议的知晓未来的能力。

从人类自身的角度看,掌握一门新的语言,就能拥有一种新的思维方式。语言影响和塑造了我们的思维过程,而思维也反过来影响和塑造了我们对语言的理解与使用。

从历史维度出发,语言是连接过去、现在和未来的纽带。我们记录并传承历史的经验与传统,让当下人与人的沟通促进社会发展,对未来规划并许下目标和愿景。

在这个过程中,一些意外的变量可能带来新的问题。

02

近段时间,A.I. 已逐渐成为技术产品中的一种基础模块。

根据 Productboard 的调查,有 90% 的初创公司计划或已经发布了 A.I. 功能,但只有 30% 的公司在招聘新人来进行这些开发工作。

今天,无论商业或开源 LLM 都简化了将生成式 A.I. 功能嵌入已有业务的过程。

为了提升用户量与使用频率,来获得生成内容的质量反馈以提升模型效率与能力,LLM 所有者有足够动力将其模型构建成开箱即用的标准组件。

类似 GPT、PaLM2、Claude 以及其它文本大语言模型,能够让开发人员使用几行代码就构建起一个可用的聊天机器人,而不需要耗费人力物力去从头开始研究一整套性能精确的语言模型。

简单的技术和易于部署的性质,让每一家企业,从现在开始都将是一家人工智能企业。

我们与 LLM 及其所代表的生成式人工智能之间的沟通方式,也有着出人意料的轻松便捷。

只是,这是怎么实现的?

03

最近,OpenAI 的 API 更新了 Function Calling 能力,使开发者可以为自己的客户提供类似于ChatGPT 插件的能力。新接口让 GPT 分析提交的文本,自行判断是否需要调用接口,并将通过接口获取的内容生成为易读性和可用性更高的文本。

无论是查询文本或是返回结果,双方的沟通内容都在文本向量化之后,借助 GPT 模型实现了标准、可控的内容输出。这个过程中,用户与内容服务方之间不再产生直接的语言沟通。

听上去有些奇怪,沟通双方通过一个代理进行交流,而代理理解双方语言背后意图的方式,则基于沟通双方都无法理解的向量化文本。但出乎意料的是,在客服、咨询等领域,生成式文本的质量得到了验证,并获得越来越多行业的认可。

今天大语言模型的这种能力,激发人们对这种效果背后的原理产生兴趣,但还没有人能够完全弄清楚其中道理。研究人员或是尝试使用语言模型去帮助理解语言模型的机制,或是暂时理解为大语言模型借助概率“理解”了语言。

从开发者的角度看,为了能使用语言模型获得稳定的输入与输出内容,只需向模型提交代码形式的格式文本就完成了任务,其他则是等待语言模型自动运转的过程。

同时,越来越多人也在学习如何撰写好的Prompt,分享那些能够让语言模型输出满足我们需求的文本,即便这些 Prompt 本身是日常很少见到的表述与结构。

至此,为了让大语言模型更高效地服务于我们,我们开始学习如何使用格式文本与其沟通。

这是一种变化中的思考方式,也可能是不得已的适应与迁就。

04

接下来说说 API。

简单说,API 是不同软件之间交互的通道,提供了不同软件之间数据共享和功能互通的标准方法。

在前 A.I. 时代(我认为这个词现在来看很恰当),由开发人员考虑如何设计 API,为系统的相互操作性与模块复用性做好准备。在 API 的另一边,由另一方开发人员使用 API 来完成系统之间的互动。

一篇来自 Sebastian Bensusan 的文章提到,我们可以像阶梯那样去理解 API:

  • 对于初学者,API 应该是方便易用的(快速上手,开箱即用
  • 对于进阶者,API 应该是循序渐进的(来按需使用不同模块和深度功能
  • 对于专家,API 应该是灵活的(以方便他们解决各种问题

实践中,开发人员可以先考虑灵活性,能够适应更多的使用场景;再考虑渐进性,让 API 具备足够合理的学习曲线;最后才是便利性。如果顺序相反,大多数其他需要使用你的 API 的开发人员,会因为 API 无法满足需求而寻求其他途径去解决问题。

以上场景中,将 API 运转起来的角色,无论是设计 API 或是使用它的开发人员,都是人类用户。虽然开发人员需要使用代码语言使系统顺利对接,但人与人之间还是可以通过日常语言去厘清可能出现的分歧(回想一下你印象中开发人员激烈讨论的场景?)

但在 A.I. 时代,当开发人员制作面向语言模型的 API 时,可能会发现自己需要做的事情变简单了。

现在只需要提供结构化的文本参数并做好标记,语言模型自己就能将这一套信息获取、分析、调用、分析再生成的流程运转完毕。

考虑到编程领域的 A.I. 实际也可以看作是一种生成式文本,我们不可避免地会想象到这样一个场景:是否存在一种可能,开发人员使用语言模型生成更有效的 API,然后让它自己使用 API 完成业务?

我们向模型提出问题,向模型提供素材。软件系统与人工智能在二进制世界中借助向量文本和权重实现更高效的沟通与输出。我们享受它的便利,但我们完全不了解它。

研究人员和开发人员或许不会允许这类事情发生。但在全行业还没有十足把握让模型产生稳定可靠结果的当下,出于追求极致效率的考虑,语言模型很可能会进化出自己的语言,变成一个真正的黑盒,在任何不太需要人类介入的环节,代替我们做出决定。

我们仅存的能力,会是写出更好的提示词吗?

05

A.I. 将形成自己的语言或许是毫无依据的异想天开。

但大语言模型被未经核查信息污染的事情已真实发生。

与更具备科幻色彩的 A.I. 孕育出人类无法理解的语言相比,A.I. 吸收“垃圾”资讯后再生成“垃圾”文本这件事,对我们日常生活将产生的威胁显得更实际,也更迫切一些。

事情起因是知乎网站上的 A.I. 机器人向网站不同领域的问题填充了大量未经核查的信息,生成式文本的生成效率和文本与生俱来的解读性,让这些不正确的内容得以逃避审核,成为站点内容的一部分。

与此同时,使用知乎作为信息源的必应搜索,即便有 GPT-4 加持,无法从错误百出的语料中修正出符合客观事实的结果,导致必应 A.I. 频繁输出误导性的回答。

垃圾资讯不是新鲜事,但借助大语言模型高效率的垃圾资讯,可能会因此引发质变。

我们对语言模型的信任会因此降低,或导致生成式文本变得毫无价值。

语言塑造了我们的思维方式,被污染的语言也必将对我们思考问题的方法产生影响。

无论是认为大语言模型产生垃圾资讯需要付出审核成本的监管来管理,还是通过其他方式识别垃圾资讯来形成某种程度的共存,抑或是从源头抓起完全杜绝垃圾资讯的生产。

我们都不可避免地需要应对、与大语言模型带来的更多的幻觉、虚假信息、误导内容做一番争斗。在其独有的对生成内容绝对自信的姿态面前,我们

站在历史与未来的中点,面对大语言模型和其代表的生成式人工智能所带来的机遇与挑战,我们需要建立新的理解其运作机制的思维和语言,也将投入超出预估的精力与之抗衡。

语言是连接过去、现在和未来的纽带。

当下的决策,指引着我们的未来。

(完)