阅读下面的文字，完成下面小题。材料一美国科技公司OpenAI旗下的智能聊天工具ChatGPT火了，它能响应用户需求，做出“类似人类的反应”，能有逻辑性地回答问题、撰写文章，进行分析。这款和以前不一样的聊天机器人迅速收获大量用户，被形容为“

1. (2023高三上·宜宾开学考) 阅读下面的文字，完成下面小题。
材料一
美国科技公司OpenAI旗下的智能聊天工具ChatGPT火了，它能响应用户需求，做出“类似人类的反应”，能有逻辑性地回答问题、撰写文章，进行分析。这款和以前不一样的聊天机器人迅速收获大量用户，被形容为“久违的现象级消费产品”。
产品火了，仿冒者也来了。市场上已经冒出多种产品，每一个都宣称自己就是ChatGPT。与真正致力于人工智能研究的公司不同，仿冒者有的表示自己是调用了美国ChatGPT的接口，在免费对话额度用完之后，便开始提示用户需要收费，借此捞金。有的则完全是打着ChatGPT旗号的“山寨”，聊天能力却和ChatGPT相去甚远。这种山寨版聊天机器人质量低，用户体验也差，很容易让普通人对该领域产生误解。
节选自《科技日报》
材料二
ChatGPT的训练过程主要分以下几个阶段：
GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员给出高质量答案，把人工标注的问答和对话数据作为监督数据来微调GPT3.5模型。第二阶段主要通过在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。接下来，使用这个排序结果数据来训练奖励模型（RM）。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。第三阶段进一步采用PPO，（Proximal Policy Optimization，近端策略优化）强化学习来优化策略。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。
摘编自《ChatGPT发展历程、原理、技术架构详解和产业未来》
材料三
过去几年，类ChatGPT技术已经得到深入研究，ChatGPT通过产品方式展现在大众面前。ChatGPT的突然爆火意味着人机交互走出了技术深闺，标志着以大模型为核心的智能计其范式的确立，敲开了通用化人工智能大门。近年来，以GPT-3、ChatGPT为代表的大模型技术所取得的显著成果表明，增大模型规模和数据规模是突破现有人工智能技术应用瓶颈行之有效的方法。ChatGPT的成功标志着从以专用小模型训练为主的“手工作坊时代”到以通用大模型预训练为主的“工业化时代”的人工智能研究范式转变。
这一转变具有十分重要的意义。通过先进的其法架构、尽可能多的数据，汇集大量算力，集约化的训练模式，由此得到的通用大模型可在广泛应用场景下通过极低代价的模型微调实现高性能的任务适配，使人工智能技术的先进能力更好、更有效地应用到各个场景里面，从而，大大降低开发成本，加速产业发展。ChatGPT的出现为人工智能产业注入了新的活力，同时也极火地促进了通用化人工智能的发展。
《中科院之声》节选
材料四
类似GPT-3的大型语言模型都是基于来自互联网的大量文本数据进行训练，能够生成类似人类的文本，但它们可能并不总是产生符合人类期望的输出。事实上，它们的目标函数是词序列上的概率分布，用来预测序列中的下一个单词是什么。
但在实际应用中，这些模型的目的是执行某种形式的有价值的认知工作，并且这些模型的训练方式与期望使用它们的方式之间存在明显的差异。尽管从数学上讲，机器计算词序的统计分布可能是建模语言的高效选择，但人类其实是通过选择最适合给定情境的文本序列来生成语言，并使用已知的背景知识和常识来辅助这一过程。当语言模型用于需要高度信任或可靠性的应用程序（如对话系统或智能个人助理）时，这可能是一个问题。
尽管这些基于大量数据训练的大模型在过去几年中变得极为强大，但当用于实际以帮助人们生活更轻松时，它们往往无法发挥潜力。大型语言模型中的一致性问题通常表现为：提供无效帮助，没有遵循用户的明确指示。内容胡编乱造，虚构不存在或错误事实的模型。缺乏可解释性，人们很难理解模型是如何得出特定决策或预测的。内容偏见有害，一个基于有偏见、有害数据训练的语言模型可能会在其输出中出现这种情况，即使它没有明确指示这样做。
《ChatGPT背后的技术工作原理》节选
1. （1）下列对材料二相关内容的理解，不正确的一项是（）
  
  A . ChatGPT主要通过“监督策略模型、训练奖励模型、用PPO强化学习来优化策略”这三个阶段的训练实现迭代升级。 B . ChatGPT第二阶段训练需要从数据集中随机抽取问题，标注者书写高质量答案，再用优化后的数据微调GPT-3.5模型。 C . ChatGPT第二阶段训练是先采样问题，标注者对生成的模型输出的多个不同回答结果排序，再训练RM模型比较排序结果的质量高低。 D . ChatGPT第三阶段训练是在数据集中随机采样新问题后，由PPO模型生成回答，再以强化学习方式更新PPO模型参数。
3. （2）下列对材料相关内容的概括和分析，正确的一项是（）
  
  A . 奖励模型能为多个排序结果形成的多个训练数据打分，评价分值的高低与回答质量的优劣成。 B . 大模型技术进步是从“手工作坊时代”到“工业化时代”人工智能研究范式转变取得成效的标志。 C . ChatGPT能减低各应用场开发成本，活跃人工智能产业，极大地促进了通用化人工智能的发展。 D . 语言模型不能符合人类期望的输出，是因为机器计等词序列的统计分布并非建模语言的高效选择。
5. （3） ChatGPT的爆火给我们带来哪些思考？请结合材料简要概括。

微信扫码预览、分享更方便

使用过本题的试卷

四川省宜宾市第四名校2023-2024学年高三上学期语文开学检测试卷