微软给谷歌的左右双拳暴击。偷偷合作,然后惊艳所有人。
OpenAI发布ChatGPT一个月后,谷歌的态度由起初的毫不在意,变成战战兢兢。警铃大作的谷歌领导层,直接发布了「红色代码」。
没多久,微软就给了谷歌一个暴击——宣布要把ChatGPT整合进自家的搜索引擎必应Bing中。而且,还没等谷歌喘口气,据知情人士透露,微软马上要给谷歌「双重暴击」了——微软计划在Word、PowerPoint、Outlook等软件中,悉数加入ChatGPT等AI。
革命性的一步
ChatGPT的原理及应用
以GPT3为代表的大语言模型,利用提示学习的方法,虽然已经可以进行各种各样的任务,并且生成流畅的回复,但是在一些情况下仍然会产生不符合人类预期的回复,包括不真实的、有毒害的、致幻性的回复。换句话说,大模型产生的回复与人类真实的回复是有偏置的。InstructGPT的目标就是缓解这种生成回复与真实回复之间的偏置产生更加符合人类预期的回复。
InstructGPT是怎么做的?
在这篇工作里,OpenAI的研究人员从数据层面和方法层面两方面对模型生成的质量进行了改善。数据层面,聘请标注人员标注一部分训练数据用于微调GPT3;而方法层面使用基于人工反馈的强化学习方法(RLHF)对模型进一步进行微调,使其生成结果更符合人类预期
数据层面,如下图所示,标注分为两个阶段:标注人员首先撰写一些相关的Prompt,这些Prompt描述了要进行的任务;第二阶段,从Prompt中采样,标注人员需要根据被采样出的Prompt写出其理想的回复。这样的一个Prompt与其对应的回复被称为demonstration。这些人工构造出来的demonstration是高质量的训练数据,这些训练数据被用作微调GPT3之中
InstructGPT 数据标注示意图
方法层面,如下图所示,InstructGPT的训练实际上是分为三个阶段的,第一阶段就是我们上文所述,利用人工标注的数据微调GPT3;第二阶段,需要训练一个评价模型即Reward Model,该模型需学习人类对于模型回复的评价方式,对于给定的上文与生成回复给出分数;第三阶段,利用训练好的Reward Model作为反馈信号,去指导GPT进一步进行微调,将目标设定为Reward分数最大化,从而使模型产生更加符合人类偏好的回复。
InstructGPT整体训练流程
想象一下
微软已经讨论在Word、PowerPoint、Outlook和其他应用程序中加入OpenAI的人工智能,这样,用户通过简单的提示,就可以自动生成文本。
想象一下,在你需要请假时,只要随手打出「写一封请病假的邮件」几个字,Outlook就能秒秒钟把措辞正式的请假申请写好,直接点击发送即可。
微软计划利用OpenAl的技术,在Word和Outlook中创建聊天机器人风格的程序,这些程序类似于OpenAl的「顶流」ChatGPT,可以根据提示编写整套文本。相较于微软和谷歌目前提供的服务,聊天机器人带来的新功能,将会产生很重大的改变,或许是革命性的飞跃。ChatGPT也解答了,Microsoft 365中加入GPT-4后,会发生哪些改变。
1. 改进语言生成GPT-4是一个非常强大的语言模型,它可以被用来改善微软应用程序的语言生成能力。这可能包括自动总结、内容建议、甚至自动完成文本等功能。
2. 电子邮件协助GPT-4可以被用来改善Outlook的电子邮件协助功能。例如,该模型可以根据电子邮件的内容建议对电子邮件的回复,或者它可以帮助完成诸如安排会议或安排旅行等任务。
3. 数据分析GPT-4可以被用来帮助用户分析Excel中的数据。该模型可以根据数据建议图表或图形,也可以根据数据提供建议。
4. 翻译GPT-4可以被用来提高微软应用程序的翻译能力,如Word或PowerPoint。这可以使用户更容易处理多语言的文件或演示文稿。总的来说,GPT-4的使用可以使用户更容易和更有效地完成与语言处理、数据分析和电子邮件有关的各种任务。