2023年ChatGPT概念科普课件.pptx_163文库

资源描述

1、汇报人：X X时间:2023.02ChatGPT【聊天机器人模型】ChatGPT是什么？学习解读01 名词定义录CONTENTS02 ChatGPT发展历程03 ChatGPT技术逻辑04 社会运用PART 01名词定义名词定义ChatGPTChatGPT是由人工智能研究实验室OpenAI在2022年11月30 日发布的全新聊天机器人模型,款人工智能技术驱动的自然语言处I具。功能它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。名词定义ChatG PT官方说明：ChatGPT是一

2、种基于GPT-3技术的聊天机器人这一模型可以与人类进行谈话般的交互，可以回答追问，连续性的问题，承认其回答中的错误，指出人类提问时的不正确前提，拒绝回答不适当的问题。Operls New ChatGPT%PART 02ChatGPT发展历程发展历程推出注册火爆2022年11月底，人工智能对话聊天机器人ChatGPT推出，迅速在社交媒体上走红，短短5天，注册用户数就超过100 万。试点订阅计划ChatGPT Plus2023年2月2日，美国人工智能（AI）公司OpenAI发布ChatGPT试点订阅计划 hatGPT Plus。ChatGPTPlus将以每月20美元的价格提供，订阅者可获得比免费

3、版本更稳定、更快的服务，及尝试新功能和优化的优先权。发展历程搜索引掌2023年2月2日，微软官方公告表示，旗下所有产品将全线整合ChatGPT.除此前宣布的搜索引擎必应、Office外，微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。全面整合订阅计划当地时间2023年2月2日，ChatGPT的开发公司美国人工智能公司OpenAI顺势推出了这一应用程序的付费订阅版本。.PART 03ChatGPT技术逻辑技术逻辑1、基于深度学习技术它基于深度学习技术，通过构建多层神经网络来模拟人类大脑的学习过程，从而使计算机可以完成许多复杂的任务，例如

4、语音识别、图像分类和自然语言理解等。它会通过对大量文本数据进行训练，来学习语言知识和推理能力。这些文本数据可能包括新闻文章、小说等内容。通过不断地训练，它的神经网络可以学会提取文本中的信息，并使用这些信息来回答问题技术逻辑2、训练方法OpenAI的开发人员是这么解释的：我们使用与InstructGPT相同的方法，以从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的方法训练该模型，人工智能训练者扮演对话的双方，即用户和人工智育锄手，提供对话样本。在人类扮演聊天机器人的时候，会让模型生成一些建议,辅助训练师撰写回复，训练师会

5、对回复选项打分排名，将更好的结果输回到模型中，通过以上奖励策略对模型进行微调并持续迭代。“技术逻辑2、训练方法监督学习：监督学习就是在有答案”的数据集上学习。例如我彳门要用监督学习(supervised learning)训练一个中文到英文的机器翻译模型，我们就霊要有中文以及其对应的英文。迁移学习：迁移字习就是使用已训练的模型来解决更复杂的彳壬务。这种方法的基本思想是，如果两个彳壬务相关，那么可以使用已解决第一个任务的模型来加速解决第二个壬务。迁移学习通常使用在数据和计算资源有限的情况下，因为可以使用已经训练好的模型的知识，而不是从头开始训练新的模型。再使用监督字习来对模型进行针对性的

6、微调(fine-tune)。技术逻辑2、训练方法强化学习：ChatGPT在使用进行微调之外，还使用了一种叫做reinforcement learning from human feedback(RLHF)的技术。这个技术在ChatGPT的主要作用是将预训练的模型的目标对齐到聊天这一具体的下游应用上。强化字习可以理解为让智能体在给定环境中学习如何执行最优决策,以获得最大回报(reward)0最大回报意味看此时的回复最符合人工的选择取向。例如,在游戏中的机器人，可以通过执行不同的动作来尝试获得最大的分数。每一次动作后，机器人都会根据得分的提升或下降来调整自己的策略，以便在未来尽可能地得最大的

7、回报。4技术逻辑2、训练方法强化学习：Stc1Colled domomtratlon data and train a superwod policySup 2Cotoct comparison data and tram a reward modelOptimize a polcy against the reward model using the PPO relnfofcemeat learning algorithmA prempt K unDtodrrn(nour proffpi drasalAbeter denv?n states the dwredoXM beta ver.oim

8、rrtoaflyw*!iTMdATActuWKltO ftn-tunGPT-35 uth superviseAp*orn sampled.AlMgr$f*Mhe 05H5 瑚 to worst.This data is used totrainox reward medetoe o oAnew(xcYipte MinxXcd Irom irwdst&setnwPPOffKKteih gi 顷 M x n g SCrvSd polcy.The pohey generates 9 outputThe re*9d mo第一阶段:冷启动阶段的监督策略模型。第二阶段：训练回报模型(Reward Mode

9、LRM)第三阶段：增强预训练模型的能力笛一阶段：冷启动盼段的监管策略径里.GPT 3.5母管芻强.但呈它很推理辨人奏不同类型指令中藐含的不同SS.ts很療判断生成宙容是否是高质员的结界.为了让GP3.5初步具朝88指今中盟含的寡图，首先会从到试用户提交的prompt中随机洎成一批,靠专业的坏注人员.给岀招定的高质答牽,然后用这些人工标注好的故据奈符调程坚.经过这个12.我们可以认为GPT 3.5初步具备了逢/人关prompt中所包合意图，井根18这个奪图给出相对髙质虽回答的能力.但仅仅这掉做是不够的.第二吩段.训练回报曜(Reward Model.RM).这个册段的王耍目的是通过人工蜥

10、主训緯故推，来训练回报模型.日体而百，ffltfira样一枇用户提交的prompt(大郞分和第一阶段的相同)，住用渠一阶段微週蜉的冷启动模型，対于莓个 prompt,生 fiE K 个不同的笞，7 E H 产生出 7.vprompt.answer2.vprompt,answerK姓据.之后.标注人员对K个结里按照很富标准(例如相关性、富含信息性、白客信忠等沽穿标准)分合夸忠泌行排床.始出K个结果的洋名帔存.谊一步的曰的是引导GPT回答人笑必审到的答*,(W ChatGPT从命钏动传白了憲S13E 动.笥三阶段：増理顶圳1绯横空的88力.本阶段无需人工怀i主鮫58,而足利用上一阶段学好的R

11、M模型，S RM打瘁S果糸史新预训绮模型参敏.体而吉.甘先，从用户提交的prompt史SS饥采样一批新的命令(与英一第二阶段不同的新的prompt),且臼冷启动模型来初始化PPO(Proximal Policy Optimization)模型的分散.然后.对于防机抽取的prompt,使用PPO後5!生成回答.并用上一阶段训塚好的 RM橙!U!给出质量评怙的回报分敏.启此产生的策略悌庞可以Sr PPO WSSS.这一步目的舉产生符合RM标准的商拓量回笞。技术逻辑核心竞争力ChatGPT受到关注的重要原因是引入新技术RLHF（Reinforcement Learning with Huma

12、n Feedback,即基于人类反馈的强化学习）。RLHF解决了生成模型的一个核心问题，即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。ChatGPT是AIGC（Al-Generated Content,人工智能生成内容）技术进展的成果。该模型能够促进利用人工智能进行内容创作、提升内容生产效率与丰富度。OpenAIGPT-3 CodtK DALLE 2Azure OpenAI技术逻辑技术局限性ChatGPT的使用上还有局限性，模型仍有优化空间。ChatGPT模型的能力上限是由奖励模型决定，该模型需要巨星的语料来拟合真实世界，对标注员的工作量以及综合素质要求较高

13、。ChatGPT可能会出现创造不存在的知识，或者主观猜测提问者的意图等问题，模型的优化将是一个持续的过程。若AI技术迭代不及预期，NLP模型优化受限，则相关产业发展进度会受到影响。此外，ChatGPT盈利模式尚处于探索阶段，后续商业化落地进展有待观察。PART 04 社会运用技术逻辑结合ChatGFT的底层技术逻辑，有媒体曾列出了中短期内ChatGPT的潜在产业化方向归纳性的文字类工作图像生成领域AIGC代码开发相关工作智能客服类工作.运用场景1、搜索引擎目前的搜索引擎都是在你搜索了任何一个问题后，列出一大堆的结果，这其中一些好的答案可能会排在前面，但也可能会是很多广告排在前面。如果霧

14、要真正解决问题，可能还需要多次查找不同关键词才能得到最终答案。而ChatGPT 一个非常核心的功能点就是它会把大家晋遍认为最好的答案直接告诉你，并且可以一直对话下去，就像找老师问问题一样，体验很好bBing运用场景2、写代码告诉他用什么语言实现什么功能，它就可以写出一段有质量的代码，并且会告诉你是怎么实现对于程序员来说，在日常工作中它还能给他们提供不少的帮助，主要是帮助解决开发中遇到的问题运用场景3、写文章我们工作中也会常写一些文章，例如技术文章、知识分享等，我们都可以用它来辅助我们完成，例如润色语句、知识点总结、名词的字典查伺等，也可以模彳方某人的风格撰写文章，来帮助我们写出来的文章偏向

15、到某种风格.运用场景4、其他应用场景除了日常对于个人应用，ChatGPT的成熟也可带来广泛的应用场景甚至替代一个岗位，目前下游相关行业可能包括代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人（客服、外呼、莒销）等。从上游需求的增加来看，受益行业可能包括算力、数据标注、自然语言处理等。总之，它的应用场景还是很具有想象力的.修ChatGPT替代谷歌搜索？ChatGPT何以如此强大？在OpenAI的网站上，可以窥见一二根据OpenAI的官方文档，相比之前的GPT模型，OpenAI采用了全新的训练方式，即一种名为从人类反馈中强化学习(Reinforcement Learning

16、from Human Feedback,RLHF)的训练方式对 ChatGPT 进行了训练。在训练原始模型的时候，OpenAI让人类训练师扮演对话的双方提供对话作为学习资料。在人类扮演聊天机器人的时候，OpenAI也会让模型生成一些建议来帮助训练师撰写自己的回氫也就是说，基于优秀的机器学习算法和强劲的算力，通过海量的数据训练，来让AI学会思考。可以看到，ChatGPT类似于谷歌等搜索引擎，甚至功能更加强大，育湘用户更完善地互动。有分析指出，搜索弓I擎都是基于对问题本身的搜索，但它们有一个很大的限制，当用户描述不清自己的问题时，搜索引擎并不能与之互动。.号ChatGPT替代谷歌搜索？Cha

17、tGPT何以如此强大？在OpenAI的网站上，可以窥见一二。搜索弓|擎与ChatGPT不存在谁取代谁的问题，更多可能是一种互补的关系。”它们都是一种获取信息的手段，搜索引擎可能更擅长帮助用户获取已有的信息，但如果是偏创造性的信息，那有可能这种大模型会解决得更好，因为它已经隐含了很多的信息，它能够把这些信息综合地呈现出来。”现在做这种大模型的基本上都是大企业，本身它们也有搜索弓I擎的背景。例如，OpenAI背后有微软，谷歌也在做这种大模型。未来，也不排除会将这两种信息获取方式相结合。他补充道。*4ChatGPT有商业空间吗？ChatGPT有时会写出看似合理!这背后主要是三个原因，首先，强化

18、学习的信息源目前但不正确或荒谬的答案。“这并未建立；其次，模型通过学习变得更加谨慎会导致其是Open Al认为目前ChatGPT所面:回避原本能够正确回答的问题；另外，监督学习将会对临的限制，并且解决这个模型造成误导，因为理想的答案应该来源于模型的认知，问题被认为是具有挑战性的。|而非人工演示者的认知。ChatGPT有商业空间吗？ChatGPT的能力获得是基于庞大的语料库，；而如果把ChatGPTS作一个通用人工智能，它就可以在各行各业发挥用处，凝练了多领域问题的很多数据做相互校验，|比如智能教育，它可以是一个很好的AI助教；智能金融，它可以对年报做智然后挑一些基础性的内容回答出来，这其!能分析；甚至智能医疗，也可以用它去代替医生做一些琐碎的事。只要AI 实是举一千反一的过程，与人类举一|能发挥作用的行业，它（ChatGPT）至少都能把目前的系统能力进一步提升，反三的能力还相差较远，它不具备思考能|这真是很大的应用前景。力，所以犯错误不可避免，但通过人为的干预反馈，这些问题是可以被改进的。A汇报人:X X时间:2023.02ChatGPT【聊天机器人模型】ChatGPT是什么？学习解读

展开阅读全文