1、ChatGPT是什么?学习解读汇报人:ChatGPT【聊天机器人模型】时间:2023.02名词定义01ChatGPT发展历程02ChatGPT技术逻辑03社会运用04目 录CONTENTS名词定义名词定义ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。ChatGPTChatGPT它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。功能功能名词定义名词定义ChatGPT 是一种基于 GPT-3 技术的聊天机器
2、人ChatGPT ChatGPT 官方说明:官方说明:这一模型可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题。ChatGPTChatGPT发展历程发展历程发展历程推出2022年11月底,人工智能对话聊天机器人ChatGPT推出,迅速在社交媒体上走红,短短5天,注册用户数就超过100万。试点订阅计划2023年2月2日,美国人工智能(AI)公司OpenAI发布ChatGPT试点订阅计划ChatGPT Plus。ChatGPT Plus将以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化
3、的优先权。注册火爆ChatGPT Plus发展历程全面整合2023年2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT,除此前宣布的搜索引擎必应、Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。订阅计划当地时间2023年2月2日,ChatGPT的开发公司美国人工智能公司OpenAI顺势推出了这一应用程序的付费订阅版本。搜索引擎ChatGPTChatGPT技术逻辑技术逻辑技术逻辑它基于深度学习技术,通过构建多层神经网络来模拟人类大脑的学习过程,从而使计算机可以完成许多复杂的任务,例如语音识别、图像分类和自然语
4、言理解等。它会通过对大量文本数据进行训练,来学习语言知识和推理能力。这些文本数据可能包括新闻文章、小说等内容。通过不断地训练,它的神经网络可以学会提取文本中的信息,并使用这些信息来回答问题1、基于深度学习技术技术逻辑2、训练方法OpenAI 的开发人员是这么解释的:“我们使用与 InstructGPT 相同的方法,以从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的方法训练该模型,人工智能训练者扮演对话的双方,即用户和人工智能助手,提供对话样本。在人类扮演聊天机器人的时候,会让模型生成一些建议,辅助训练师撰写回复,训练师会对
5、回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代。”技术逻辑2、训练方法 监督学习:监督学习就是在“有答案”的数据集上学习。例如我们要用监督学习(supervised learning)训练一个中文到英文的机器翻译模型,我们就需要有中文以及其对应的英文。迁移学习:迁移学习就是使用已训练的模型来解决更复杂的任务。这种方法的基本思想是,如果两个任务相关,那么可以使用已解决第一个任务的模型来加速解决第二个任务。迁移学习通常使用在数据和计算资源有限的情况下,因为可以使用已经训练好的模型的知识,而不是从头开始训练新的模型。再使用监督学习来对模型进行针对性的微调(fin
6、e-tune)。技术逻辑2、训练方法强化学习:ChatGPT 在使用进行微调之外,还使用了一种叫做 reinforcement learning from human feedback(RLHF)的技术。这个技术在 ChatGPT 的主要作用是将预训练的模型的目标对齐到聊天这一具体的下游应用上。强化学习可以理解为让智能体在给定环境中学习如何执行最优决策,以获得最大回报(reward)。最大回报意味着此时的回复最符合人工的选择取向。例如,在游戏中的机器人,可以通过执行不同的动作来尝试获得最大的分数。每一次动作后,机器人都会根据得分的提升或下降来调整自己的策略,以便在未来尽可能地获得最大的回报。技
7、术逻辑2、训练方法强化学习:技术逻辑2、训练方法强化学习:第一阶段:冷启动阶段的监督策略模型。第二阶段:训练回报模型(Reward Model,RM)第三阶段:增强预训练模型的能力技术逻辑核心竞争力ChatGPT受到关注的重要原因是引入新技术RLHF(Reinforcement Learning with Human Feedback,即基于人类反馈的强化学习)。RLHF 解决了生成模型的一个核心问题,即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。ChatGPT是AIGC(AI-Generated Content,人工智能生成内容)技术进展的成果。该模型能够促进利用人工智
8、能进行内容创作、提升内容生产效率与丰富度。技术逻辑技术局限性ChatGPT 的使用上还有局限性,模型仍有优化空间。ChatGPT模型的能力上限是由奖励模型决定,该模型需要巨量的语料来拟合真实世界,对标注员的工作量以及综合素质要求较高。ChatGPT可能会出现创造不存在的知识,或者主观猜测提问者的意图等问题,模型的优化将是一个持续的过程。若AI技术迭代不及预期,NLP模型优化受限,则相关产业发展进度会受到影响。此外,ChatGPT盈利模式尚处于探索阶段,后续商业化落地进展有待观察。社会运用社会运用技术逻辑结合ChatGPT的底层技术逻辑,有媒体曾列出了中短期内ChatGPT的潜在产业化方向归纳性
9、的文字类工作代码开发相关工作图像生成领域智能客服类工作运用场景目前的搜索引擎都是在你搜索了任何一个问题后,列出一大堆的结果,这其中一些好的答案可能会排在前面,但也可能会是很多广告排在前面。如果需要真正解决问题,可能还需要多次查找不同关键词才能得到最终答案。而 ChatGPT 一个非常核心的功能点就是它会把大家普遍认为最好的答案直接告诉你,并且可以一直对话下去,就像找老师问问题一样,体验很好1 1、搜索引擎、搜索引擎运用场景告诉他用什么语言实现什么功能,它就可以写出一段有质量的代码,并且会告诉你是怎么实现对于程序员来说,在日常工作中它还能给他们提供不少的帮助,主要是帮助解决开发中遇到的问题2 2
10、、写代码写代码运用场景我们工作中也会常写一些文章,例如技术文章、知识分享等,我们都可以用它来辅助我们完成,例如润色语句、知识点总结、名词的字典查询等,也可以模仿某人的风格撰写文章,来帮助我们写出来的文章偏向到某种风格3 3、写文章、写文章社会运用名词定义ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。运用场景除了日常对于个人应用,ChatGPT 的成熟也可
11、带来广泛的应用场景甚至替代一个岗位,目前下游相关行业可能包括代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人(客服、外呼、营销)等。从上游需求的增加来看,受益行业可能包括算力、数据标注、自然语言处理等。总之,它的应用场景还是很具有想象力的4 4、其他应用场景、其他应用场景名词定义名词定义ChatGPT 是一种基于 GPT-3 技术的聊天机器人ChatGPT 官方说明:这一模型可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题。ChatGPT发展历程发展历程2022年11月底,人工智能对话聊天机器人Chat
12、GPT推出,迅速在社交媒体上走红,短短5天,注册用户数就超过100万。试点订阅计划2023年2月2日,美国人工智能(AI)公司OpenAI发布ChatGPT试点订阅计划ChatGPT Plus。ChatGPT Plus将以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。注册火爆发展历程全面整合2023年2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT,除此前宣布的搜索引擎必应、Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。ChatGPT替代谷歌搜索?根据Op
13、enAI的官方文档,相比之前的GPT模型,OpenAI采用了全新的训练方式,即一种名为“从人类反馈中强化学习”(Reinforcement Learning from Human Feedback,RLHF)的训练方式对 ChatGPT 进行了训练。在训练原始模型的时候,OpenAI让人类训练师扮演对话的双方提供对话作为学习资料。在人类扮演聊天机器人的时候,OpenAI也会让模型生成一些建议来帮助训练师撰写自己的回复。也就是说,基于优秀的机器学习算法和强劲的算力,通过海量的数据训练,来让AI学会“思考”。可以看到,ChatGPT类似于谷歌等搜索引擎,甚至功能更加强大,能和用户更完善地互动。有分
14、析指出,搜索引擎都是基于对问题本身的搜索,但它们有一个很大的限制,当用户描述不清自己的问题时,搜索引擎并不能与之互动。ChatGPT何以如此强大?在OpenAI的网站上,可以窥见一二。订阅计划当地时间2023年2月2日,ChatGPT的开发公司美国人工智能公司OpenAI顺势推出了这一应用程序的付费订阅版本。搜索引擎ChatGPT技术逻辑技术逻辑它基于深度学习技术,通过构建多层神经网络来模拟人类大脑的学习过程,从而使计算机可以完成许多复杂的任务,例如语音识别、图像分类和自然语言理解等。它会通过对大量文本数据进行训练,来学习语言知识和推理能力。这些文本数据可能包括新闻文章、小说等内容。通过不断地
15、训练,它的神经网络可以学会提取文本中的信息,并使用这些信息来回答问题1、基于深度学习技术技术逻辑2、训练方法OpenAI 的开发人员是这么解释的:“我们使用与 InstructGPT 相同的方法,以从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的方法训练该模型,人工智能训练者扮演对话的双方,即用户和人工智能助手,提供对话样本。ChatGPT替代谷歌搜索?搜索引擎与ChatGPT不存在谁取代谁的问题,更多可能是一种互补的关系。“它们都是一种获取信息的手段,搜索引擎可能更擅长帮助用户获取已有的信息,但如果是偏创造性的信息,那有
16、可能这种大模型会解决得更好,因为它已经隐含了很多的信息,它能够把这些信息综合地呈现出来。”“现在做这种大模型的基本上都是大企业,本身它们也有搜索引擎的背景。例如,OpenAI背后有微软,谷歌也在做这种大模型。未来,也不排除会将这两种信息获取方式相结合。”他补充道。ChatGPT何以如此强大?在OpenAI的网站上,可以窥见一二。在人类扮演聊天机器人的时候,会让模型生成一些建议,辅助训练师撰写回复,训练师会对回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代。”技术逻辑2、训练方法 监督学习:监督学习就是在“有答案”的数据集上学习。例如我们要用监督学习(supe
17、rvised learning)训练一个中文到英文的机器翻译模型,我们就需要有中文以及其对应的英文。迁移学习:迁移学习就是使用已训练的模型来解决更复杂的任务。这种方法的基本思想是,如果两个任务相关,那么可以使用已解决第一个任务的模型来加速解决第二个任务。ChatGPT有商业空间吗?这背后主要是三个原因,首先,强化学习的信息源目前并未建立;其次,模型通过学习变得更加谨慎会导致其回避原本能够正确回答的问题;另外,监督学习将会对模型造成误导,因为理想的答案应该来源于模型的认知,而非人工演示者的认知。“ChatGPT有时会写出看似合理但不正确或荒谬的答案。”这是Open AI认为目前ChatGPT所面
18、临的“限制”,并且解决这个问题被认为是具有挑战性的。迁移学习通常使用在数据和计算资源有限的情况下,因为可以使用已经训练好的模型的知识,而不是从头开始训练新的模型。再使用监督学习来对模型进行针对性的微调(fine-tune)。技术逻辑2、训练方法强化学习:ChatGPT 在使用进行微调之外,还使用了一种叫做 reinforcement learning from human feedback(RLHF)的技术。这个技术在 ChatGPT 的主要作用是将预训练的模型的目标对齐到聊天这一具体的下游应用上。强化学习可以理解为让智能体在给定环境中学习如何执行最优决策,以获得最大回报(reward)。Ch
19、atGPT有商业空间吗?而如果把ChatGPT看作一个通用人工智能,它就可以在各行各业发挥用处,比如智能教育,它可以是一个很好的AI助教;智能金融,它可以对年报做智能分析;甚至智能医疗,也可以用它去代替医生做一些琐碎的事。“只要AI能发挥作用的行业,它(ChatGPT)至少都能把目前的系统能力进一步提升,这真是很大的应用前景。”ChatGPT的能力获得是基于庞大的语料库,凝练了多领域问题的很多数据做相互校验,然后挑一些基础性的内容回答出来,这其实是“举一千反一”的过程,与人类举一反三的能力还相差较远,它不具备思考能力,所以犯错误不可避免,但通过人为的干预反馈,这些问题是可以被改进的。最大回报意味着此时的回复最符合人工的选择取向。例如,在游戏中的机器人,可以通过执行不同的动作来尝试获得最大的分数。每一次动作后,机器人都会根据得分的提升或下降来调整自己的策略,以便在未来尽可能地获得最大的回报。技术逻辑2、训练方法强化学习:技术逻辑2、训练方法强化学习:第一阶段:冷启动阶段的监督策略模型。第二阶段:训练回报模型(Reward Model,RM)第三阶段:增强预训练模型的能力技术逻辑核心竞争力ChatGPT是什么?学习解读汇报人:ChatGPT【聊天机器人模型】时间:2023.02