1200字让你了解ChatGPT

ChatGPT正风靡世界!2022 年 11 月 30 日发布后,5天内拥有100万用户,2个月内就有超过1亿用户,这使其成为迄今为止增长最快的消费者应用程序。要知道抖音花了九个月,Instagram花了两年半才拉到一亿用户。比尔・盖茨表示,ChatGPT是一种全新的聊天机器人,可以对用户查询做出类似人类的反应,它和互联网的发明一样重要,必将改变我们的世界。但ChatGPT到底意味着什么?朋友圈中看到了各种解释,总觉得都欠缺点什么,这两天忙里抽闲,给大家做个简要分层介绍,帮助“老丛讲桌”的朋友对其有个理性的理解。ChatGPT 是一种大型语言模型(Large Language Models – LLMs首先让我们从大型语言模型-LLM说起。LLM 能够消化大量文本并识别文本中单词之间的联系,它的目标是通过上下文,预测文本中可能出现的单词。LLM 的标准训练不复杂,主要是从给定的单词序列中预测下一个单词,通过将LLM 预测与文本中的实际单词进行比较,不断训练,直到它可以生成准确的预测。这种方法被称为下一个标记预测(next-token predication)和屏蔽语言建模(masked-language modelling)。下图的例子可以帮助大家清楚理解LLM。

图片

显而易见,这种模型充其量就是做些单词填空。

循环神经网络(Recurrent Neural Networks (RNNs)

下一个标记预测(next-token prediction)和屏蔽语言建模(masked-language modelling)都是循环神经网络(RNN) 的常见训练任务。而RNN存在严重的局限性,它无法有效处理长文本序列,因为它使用一种称为“隐藏状态”的记忆,这种记忆只能在有限的时间内保留信息。

2017年,Google一个研发团队发表了一篇具有里程碑意义的论文,文章的题目是“Attention is All You Need – 你只需要专注”。他们提出了一种新的语言模型架构,称为转换器(Transformer),可以克服 RNN的局限性并实现巨大的改进。文章中介绍的专注机制让处理更长的文本变成可能。

Generative Pretrained Transformer (GPT)

现在我们可以介绍GPT了,它的全称是Generative Pretrained Transformer (GPT),翻成中文大概是生成预训练转换器。

GPT 模型由OpenAI 于 2018 年首次推出,所有GPT 模型都使用转换器架构来执行自然语言处理任务,例如:

•语言生成

•翻译

•问答

下图显示GPT-1到GPT-3参数量和培训数据量的变化。

图片

下面给大家简单解释下G、P、T。Generative(生成式)生成是指模型根据从训练数据中学到的模式生成新文本的能力,像GPT 这样的生成语言模型能够根据提示生成连贯的文本,而不是选择预定义的响应。Pre-trained (预训练)预训练意味着模型在针对特定任务进行微调之前已经在大量文本数据上进行了训练,和从头开始相比,这让它能够更快地学习并获得更好的结果。Transformer(转换器)Transformer 是GPT 模型中使用的架构,它已成为被表为金字招牌的标准神经网络架构。与RNN 不同,转换器可以有效地处理长文本序列而不会丢失信息。最后再来看看ChatGPT到底是什么?ChatGPTChatGPT 是InstructGPT 的衍生产品。InstructGPT 于 2022 年 1 月由OpenAI 发布,通过对GPT-3的优化完善使之可以遵循使用人类反馈的指令,让模型的输出与用户的意图保持一致。GPT-3还存在不少问题,许多朋友晒出了一些令人啼笑皆非和ChatGPT的对话。但不可否认的是,这是一个我们从未见过的AI系统,它让AI无限接近通过图灵测试,它潜在的应用价值让我们无法预测。最令人让人期待的是,ChatGPT具备的、凡人难以想象的学习能力,会带给我们更牛的GPT 4,5,6,…。

1200字让你了解ChatGPT》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.hashtobe.com/9596.html