大语言模型评测论文HELM阅读笔记

互联网 2 年前 0 2

本文介绍: 文章将NLP大模型的应用场景和评估方法进行了分类，选择了7个评价指标，并进行了16个核心场景、30个大语言模型的评测。：包括问答任务和数据集、信息检索任务和数据集、摘要生成任务和数据集、情感分析任务和数据集、毒性检测任务和数据集以及其他类型的文本分类任务和数据集。：参与比较的模型包括Anth ro pi c LM（窗口很大），T5，GPT-3 d av i nc i，清华大学的GLM和俄罗斯的YaLM等。：一般来说，模型越大效果越好；这篇文章是斯坦福大学的团队完成的一篇大语言模型的评测文章，文章的简称为HELM。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

文章模型语言

相关文章

transformer剪枝论文汇总

transformer剪枝论文汇总

互联网 1 年前 4

C语言——联合体类型

互联网 1 年前 4

使用deepspeed继续训练LLAMA

使用deepspeed继续训练LLAMA

互联网 1 年前 4

【人工智能】Fine-tuning 微调：解析深度学习中的利器(7)

【人工智能】Fine-tuning 微调：解析深度学习中的利器(7)

互联网 1 年前 9

GPT-4模型中的token和Tokenization概念介绍

GPT-4模型中的token和Tokenization概念介绍

互联网 1 年前 10

Linux 网络编程 + 笔记

Linux 网络编程 + 笔记

linux 1 年前 2

JVM之GC垃圾回收

互联网 1 年前 5

行为型设计模式—中介者模式

互联网 1 年前 6

发表回复取消回复