如今LLM(大语言模型)的问答与生成能力已被大家所熟知,很多用户已经亲身体会到了LLM为工作、生活带来的变革。其实,作为NLP(自然语言处理)的集大成者,LLM能为我们提供的能力不限于此。其基本胜任传统NLP技术所能承担的所有任务。如:分词、语义识别、命名实体识别、实体关系识别等。其中,命名实体识别、实体关系识别在NLP任务中属于难度较大的任务。传统的NLP方案,一般针对不同的业务领域都要进行专门的模型训练,从而提高识别率,但真实效果也往往不尽如人意。这也使得需要以这类技术为基础的业务,发展速度受到了一定的限制。
一个比较常见的实体关系识别场景是构建行业知识图谱。在构建知识图谱时,需要从海量的行业知识文档中提取有效的实体及其实体关系,而后进行数据预处理、实体对齐等操作。在今年以OpenAI为代表的LLM席卷全球前,笔者尝试了很多开源技术来进行实体关系的识别,发现中文环境下,百度的Paddle所展示出的效果最好的。但其能够识别的文本篇幅及质量仍让人感到些许遗憾。直到LLM出现在笔者视野里,笔者开始尝试使用LLM来完成实体关系的识别,结果令人感到兴奋。
文本中的第一句是我们给LLM输入的提示(Prompt)信息,要求其提取后续内容中的黑客组织及其账号,然后将结果以Json格式输出。而“####”后的内容为一小段文字,是LLM要处理的目标文本。下面让我们来看一看当把这段文字交给GPT,它的输出表现吧。
当看到这个结果时,令人眼前一亮。其不但分析出了黑客组织及其相关账号,还为每个账号进行了平台划分。一定程度上超出了当时给其写提示时的期望输出。结果的条理性超过了一般人类的总结水平。而在这个基础上再使用程序进行自动化处理,构建知识图谱就变的方便很多了。