基于增强序列标注策略的单阶段联合实体关系抽取方法
TP391; 从非结构化文本中抽取实体和关系是自动构建知识库的基础工作.现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题.因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL).首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息.然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体...
Gespeichert in:
Veröffentlicht in: | 计算机科学 2023, Vol.50 (8), p.184-192 |
---|---|
Hauptverfasser: | , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP391; 从非结构化文本中抽取实体和关系是自动构建知识库的基础工作.现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题.因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL).首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息.然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务.最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果.实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和 WebNLG数据集上的参数量减少了 3.1×106~5.4×106,平均推理速度提升了 2~4.2倍,F1值提升了 0.5%~2.1%. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.220700082 |