摘要:提出一套分为两步的代词指代消解算法,算法不需要人工清洗语料及预定义规则.算法第1 步采用一些新特征和机器学习算法对名词性指代代词和非名词性指代(non-anaphoric)代词分类,第2 步分别对两类代词进行消解.针对名词性代词指代消解,提出了适用于口语对话的特征抽取及表示方法,如代词和候选先行词的距离、语法、语义等的抽取和表示方法,然后通过综合这些特征来选择先行词.针对非名词性指代,将右边界规则(right frontier rule)改进为可以在口语对话中自动抽取的形式,并根据该规则选择先行项.在Byron 于2004 年发布的语料上测试,消解正确率达到77.0%,召回率达到66.0%.与Byron 的工作相比,该方法在保证系统能够自动完成的同时还提高了消解性能.