信息处理

 翻译样例中心 >> 电信翻译样例 >> 信息处理

翻译样例: 基于统计方法的汉语依存句法分析研究2
版权信息   版权信息

对句法分析来说,词性是最简单,也是最重要的信息,几乎在任意一个句法分析模型中,都使用了词性信息计算模型的参数。在早期的基于规则的系统中,主要以产生式形式推导句法树,而产生式由非终结符和词性标记构成,词性是计算条件概率的最主要信息[28-30]。在近期的句法分析系统中,Klein使用词性信息实现了一个非词汇化的句法分析模型性,在Penn Treebank 上的分析结果接近了当前的最高水平[31]。汉语方面,周强从标注语料中自动获取结构优先关系,最大限度地消除了词性规则所产生的歧义,并实现了一个汉语句法分析系统[32]。Ma 基于一个小规模的标注数据,利用词性信息估计依存关系的概率,实现了一个汉语的依存分析系统[33]。

针对这个问题,Johnson 通过扩展句法标记的方法来重新表示语法,他利用非终结符节点所在的上下文结构进行辅助标注[42]。该标注基于这样的假设:分析树中的节点标记可看作是一个“信道”,它负责该节点管辖的子树和其他子树之间的信息传递。如果将上下文信息附加在该节点标记上,可以使这个信道传递更多的信息,从而削弱PCFG 模型的独立性假设。采用什么样的标注方法更有效,与具体的语言、树库有关。Levy 指出,利用祖父节点、父节点辅助标注,ETB(English Penn Treebank)的效果要强于 CTB(Chinese Penn Treebank)的效果[43]。另一种重要的结构信息是动词次范畴。Collins97 的模型 2 中时,就利用了次范畴知识[38]。通过核心词增加次范畴概率,识别句子的补足/附属结构(complement/adjunct),提高了句法识别效果。

收稿邮箱: sotrans@126.com
QQ: 1169561052    MSN: jesczhao@hotmail. com

最新翻译样例

相关翻译样例

专业英语词汇频道