电子商务

 翻译样例中心 >> 商务翻译样例 >> 电子商务

翻译样例: 搜索引擎技术介绍
版权信息   版权信息

根据信息论原理,信息单位出现的频率越大,携带的信息越小。这就是说出现频度很高的词对于文档区分的作用很小,比如汉语中的“的”,英语中的“the”。

基于这一原理,“逆文本频率指数”(Inverse Document Frequency, IDF)通常被用来计算关键词的权重。关键词t的IDF值可以被表示为:

IDF(t) = log( N/ df(t) )其中N是所有文档总数, df(t)表示单词t的文档频率(Document Frequency),即单词t在多少篇文档中出现。

IDF是一个单词在语言中的统计特性,所以少量新文档加入对它影响很小,可以一次计算后作为单词的属性使用。

把TF(t, d)定义为单词t在文档d中的出现频率,那么文档d中关键词t的权重可以表示为:

Weight(t, d) = TF(t, d) * IDF(t)其中,IDF(t)对单词t来说是一个全局权值,而TF(t, d)则是单词t在文档d中的局部权值。

“效率”几乎是任何计算机系统都需要考虑的问题,比如算法的时空效率,对于信息检索系统,重要的效率指标通常有:

系统的查询响应时间(Response time)?? 系统的查询吞吐量(Request throughput)。

“效果”关注用户需求的满足程度,对于信息检索系统通常有两个指标:查全率(Recall)和查准率(Precision)。

查全率定义为检索结果集中的相关文档占整个文档全集中的相关文档的百分比?? 查准率定义为检索结果集中与用户查询相关的文档占整个检索结果中所有文档的百分比。

查全率是衡量检索系统取回相关信息的能力,查准率是衡量检索系统拒绝非相关信息的能力。实验证明,在信息检索中,查全率和查准率之间存在着相反的相互依赖关系,即查准率和查全率往往不能两全其美,通常查准率高时,查全率低;查全率高时,查准率低。

收稿邮箱: sotrans@126.com
QQ: 1169561052    MSN: jesczhao@hotmail. com

最新翻译样例

相关翻译样例

专业英语词汇频道