A multi-projection recurrent model for hypernym detection and discovery阅读笔记

background

上位词检测(hypernym discovery)任务致力于检测给定下位词(hyponym)的所有上位词。

上位词发现(hypernym detection)任务致力于判断两个词间是否有上下位关系或者判断上下位方向。

屏幕截图2025-04-19214342.png

motivation

  • 上位词之间是由层次关系的,现有方法不能很好的建模这种层级关系。
  • 一个下位词可能有多个不同意义的上位词。

整体方法

屏幕截图2025-04-20014004.png

类别表示增强(Type enhanced representation)

下位词大致可分为两个类别:有名实体和概念。考虑到在众多的超类任务中,有些任务会为下位词提供明确的类型信息,而有些任务则不会提供。鉴于这种情况,本文提出了一种松耦合的类型增强表示模块。这个模块能够灵活地根据是否有类型信息可用而被添加或者移除。

是下位词x的嵌入向量,是相应类别的投影矩阵,则该过程可表示为

多投影映射模块(Multi-projection mapping block)

首先使用Multi-Projection Unit (MPU) 利用多个可学习的投影矩阵提取同一词语的不同语义信息,即:

屏幕截图2025-04-20010252.png

其中代表层归一化,代表向量拼接,是第个投影的输出,是归一化后的第个投影的输出,也是我们期望的某方面的语义信息(item semantics)。

为了聚合各方面的语义信息,设计了一个基于注意力机制的聚合方法。即使用归一化后的不同投影和候选者的相似度作为注意力权重,其中是上位词的嵌入向量表示,是聚合各方面语义信息后的向量:

屏幕截图2025-04-20010858.png

层次结构感知的循环网络(Hierarchy-aware recurrent block)

同一个下位词的多个上位词的语义级别(semantic level)可能不同,且可能存在层级关系(即一个上位词A是上位词B的上位词)。因此,对于增强后的语义向量,使用多投影映射模块递归的进行处理:

屏幕截图2025-04-20012356.png

最终获得个不同语义级别的上位词向量表示,再次使用基于注意力机制的聚合方法进行聚合:

屏幕截图2025-04-20012533.png

最终得到各层级的聚合向量

损失函数与优化

对于输入的下位词,和可能的上位词,定义分数。对于上位词发现任务,选取分数最高的作为的上位词。对于上位词检测任务, 对于判断关系是否成立的任务,使用Sigmoid函数进行判断;对于方向判断问题,那种组合分数高,就判断是那个组合对应的方向。

对于给予了gold hypernyms的数据集,将其写作成对的形式,作为训练集,对于每个样本对我们随机构造个负样本,即

最终的目标损失函数为:

屏幕截图2025-04-20013822.png