信息处理

 翻译样例中心 >> 电信翻译样例 >> 信息处理

翻译样例: 基于语料库的汉语句法分析和知识获取研究
版权信息   版权信息

1994 年以来,一些统计分析模型陆续提出,包括Souter(1991)的模拟退火(Simulated Annealing) 分析方法, Magerman(1994) 的统计判定树模型,Ratnaparkhi(1999)的最大熵模型,Collins(1999)的中心驱动的词汇化模型等。虽然分析性能在不断提高,但其性能提高逐渐趋于极限的事实,也显示出纯粹基于统计的分析模型的处理缺陷。在知识获取方面,以树库作为主要知识源,Brill(1993)提出了错误驱动的规则学习方法,Bod(1993)提出了面向数据分析(DOP)技术,Joshi(2001)进行了词汇化树连结语法(LTAG)的知识获取研究。这些研究逐步建立起了以树库为中心的句法分析和知识获取研究平台。

首先,按照我们最终的分析目标,确定一个基本的句法标记集,在语言学家的参与和指导下,标注完成一个较小的句法标注语料库(如:树库)。以此为基础,构建统计语言模型,训练产生一个汉语句法分析器,可以对现有的标注语料库内容进行较好的分析。然后,针对句法分析器在处理新语料过程中暴露出来的知识缺乏问题,触发句法知识自动发现流程。在语言学家指导下,确定合适的知识表示模式,通过在已有的句法分析器中加入机器学习模块,从新的大规模语料文本中自动习得有用的知识。这些知识补充入现有的句法分析器中,可以逐步提高现有分析器的处理能力和对新语料的适应能力。再辅之以一定的人工校对,就可以逐步扩大标注语料库的规模,使之可以为句法分析器提供更多有用的统计数据。以上过程“滚雪球”似地不断重复进行,可以使标注语料库规模、自动分析器的处理精度和知识获取工具的处理能力不断得到扩大和提高,形成较好的整体规模效应。

收稿邮箱: sotrans@126.com
QQ: 1169561052    MSN: jesczhao@hotmail. com

最新翻译样例

相关翻译样例

专业英语词汇频道