本文介绍: 转换器模型是大型语言模型常见架构。它由编码器解码器组成。转换器模型通过输入进行标记处理数据然后同时进行数方程发现标记之间关系。这使得计算机能够看到人类在给出相同查询时会看到模式。Transformer 模型采用注意力机制,这使得模型能够比长短期记忆模型等传统模型更快地学习。自注意力使 Transformer 模型能够考虑序列不同部分句子的整个上下文,以生成预测。为了解决 LLMs 当前的局限性,Elasticsearch 相关性引擎 (ESRE)

语言模型定义

语言模型 (LLM) 是一种深度学习算法可以执行各种自然语言处理 (natural language processing – NLP) 任务。 大型语言模型使用 Transformer 模型,并使用大量数据集进行训练 —— 因此规模很大。 这使他们能够识别翻译、预测或生成文本或其他内容

大型语言模型也称为神经网络neural network – NN),是受人脑启发的计算系统。 这些神经网络使用分层节点网络工作,就像神经元一样。

除了向人工智能 (AI) 应用训练人类语言之外,还可以训练大型语言模型来执行各种任务例如理解蛋白质结构编写软件代码等。 就像人脑一样,大型语言模型必须经过预训练,然后进行微调,以便能够解决文本分类问答文档摘要文本生成问题。 它们解决问题能力可以用于医疗保健、金融娱乐领域,其中大型语言模型可以服务于各种 NLP 应用例如翻译聊天机器人、AI 助手等。

大型语言模型还具有大量参数,这些参数类似于模型在训练中学习收集记忆。 将这些参数视为模型的知识库

那么,什么转换器模型 (transformer model) 呢?

转换器模型是大型语言模型最常见的架构。 它由编码器解码器组成。 转换器模型通过输入进行标记来处理数据,然后同时进行数学方程发现标记之间关系。 这使得计算机能够看到人类在给出相同查询时会看到的模式

Transformer 模型采用自注意力机制,这使得模型能够比长短期记忆模型等传统模型更快地学习。 自注意力使 Transformer 模型能够考虑序列不同部分句子的整个上下文,以生成预测。

大语言模型的关键组成部分

大型语言模型由多个神经网络层 (neural networks layers) 组成。 循环层 (recurrent layers)、前馈层 (feedforard layers)、嵌入层 (embedding layers) 和注意力层 (attention layers) 协同工作来处理输入文本并生成输出内容

嵌入根据输入文本创建嵌入。 大语言模型的这一部分捕获输入语义和句法含义,因此模型可以理解上下文

大型语言模型的前馈层(FFN)多个连接层组成,用于转换输入嵌入。 这样做时,这些层使模型能够收集更高级别抽象,即理解用户输入文本的意图。

循环顺序解释输入文本中的单词。 它捕获句子单词之间的关系。

注意力机制使语言模型能够专注于与当前任务相关的输入文本的单个部分。 该层允许模型生成最准确的输出

将 Transformer 应用到你的搜索应用程序中

大语言模型主要分为三种

大型语言模型和生成式人工智能有什么区别

生成式人工智能一个总称,指的是具有生成内容能力的人工智能模型。 生成式人工智能可以生成文本、代码图像视频音乐生成式人工智能例子包括 Midjourney、DALL-E 和 ChatGPT。

大型语言模型是一种生成式人工智能,它接受文本训练并生成文本内容。 ChatGPT 是生成文本人工智能一个流行示例

所有大型语言模型都是生成式 AI。

大型语言模型如何工作

大型语言模型基于 Transformer 模型,其工作原理接收输入、对其进行编码然后对其进行解码以生成输出预测。 但是,在大型语言模型能够接收文本输入并生成输出预测之前,它需要进行训练,以便它能够实现通用功能,并进行微调,使其能够执行特定的任务

训练:大型语言模型是使用来自维基百科、GitHub 或其他网站的大型文本数据集进行预训练的。 这些数据集由数万亿个单词组成,它们的质量影响语言模型的性能。 在此阶段,大型语言模型进行无监督学习,这意味着它可以在没有特定指令的情况下处理输入的数据集。 在此过程中,LLM 的人工智能算法可以学习单词的含义以及单词之间的关系。 它还学习根据上下文区分单词例如,它会学习理解 “右” 是否意味着 “正确”,或者 “左” 的反义词。

微调:为了让大型语言模型执行特定任务例如翻译),必须针对该特定活动进行微调。 微调可优化特定任务性能

提示调整实现了与微调类似的功能,即通过样本提示或零样本提示来训练模型执行特定任务提示是给 LLM 的指示。 少样本提示教会模型通过使用示例来预测输出。 例如,在此情感分析练习中,几次提示将如下所示

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative

语言模型将通过hideous (丑陋)” 的语义来理解,并且因为提供了相反的示例,所以第二个示例中的客户情绪是 “负面的”。

或者,零样本提示不使用示例来教导语言模型如何响应输入。 相反,它将问题表述为 ‘This plant is so hideous’ 中的情绪是……” 它清楚地表明了语言模型应该执行哪些任务,但没有提供解决问题的示例。

大型语言模型用例

大型语言模型可用于多种目的:

除了这些用例之外,大型语言模型还可以完成句子、回答问题和总结文本。

凭借如此广泛的应用程序,大型语言应用程序可以在众多领域中找到

大型语言模型的好处

由于应用范围广泛,大型语言模型对于解决问题特别有益,因为它们以清晰的对话风格提供信息,易于用户理解。

大量应用程序:它们可用于语言翻译句子完成情感分析问答数学方程等。

不断改进:大型语言模型的性能正在不断改进,因为它会随着添加更多数据和参数而增长。 换句话说,它学得越多,它就越好。 更重要的是,大型语言模型可以展示所谓的 “上下文学习”。 一旦 LLM 经过预训练,几次提示就可以使模型从提示中学习,而无需任何额外的参数。 就这样,它不断地学习。

它们学习速度很快:在演示上下文学习时,大型语言模型学习速度很快,因为它们不需要额外权重资源和参数来进行训练。 从某种意义上说它很快,因为它不需要太多的例子。

大型语言模型的局限性和挑战

大型语言模型可能会给我们这样的印象:它们理解含义并且能够准确地做出反应。 然而,它们仍然是一种技术工具,因此大型语言模型面临着各种挑战。

        他们还可能从照片描述中窃取个人数据,例如拍摄对象姓名或摄影师姓名,这可能会损害隐私。 LLM 已经因侵犯知识产权而陷入诉讼,其中包括盖蒂图片社 (Getty Images) 发起的一项著名诉讼。

流行的大语言模型示例

流行的大型语言模型已经风靡全球。 其中许多已被各行各业的人们所采用。 你无疑听说过 ChatGPT,这是一种生成式 AI 聊天机器人。

其他受欢迎的法学硕士模型包括:

大型语言模型的未来进展

ChatGPT 的到来使大型语言模型脱颖而出,引发了人们对未来的猜测和激烈争论。

随着大型语言模型的不断发展提高其对自然语言掌握,人们非常担心它们的进步会对就业市场产生什么影响。 很明显,大型语言模型将发展出取代某些领域工人的能力

正确的人手中,大型语言模型能够提高生产力和流程效率,但这为其在人类社会中的使用带来了伦理问题

Elasticsearch 相关性引擎简介

为了解决 LLMs 当前的局限性,Elasticsearch 相关性引擎 (ESRE) 是为人工智能驱动的搜索应用程序构建相关性引擎借助 ESRE,开发人员能够构建自己语义搜索应用程序利用自己转换器模型,并将 NLP 和生成式 AI 结合起来,以增强客户的搜索体验

使用 Elasticsearch 相关性引擎增强你的相关性

大型语言模型资源

原文地址:https://blog.csdn.net/UbuntuTouch/article/details/134747557

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_36156.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注