出现关键词频度初始得分表
同一位置频度 | 1 | 2-3 | 4-7 | 8 | 9 | >10 |
得分m | 2 | 4 | 8 | 8 | 3 | 1 |
出现的位置初始得分表
位置 | 标题 | 段首 | 段尾 | 其余正文 | URL | 其他 |
得分比i | 0.9 | 0.6 | 0.6 | 0.3 | 0.4 | 0.2 |
网页更新频度得分表
距查询的时间 | 一天 | 一天至三天 | 三天以后 |
得分比j | 1.1 | 1.0 | 0.9 |
容易得出网页A的得分简单的计算公式
Score(A) = PageRank × β + ∑m × i × j
其中β是衰减系数,降低PageRank对最后排名的影响。
但是这么做有一个明显的缺陷,一个内容比较长的网页比一个内容比较短的网页在排序过程中有绝对的优势,即m的取值不够恰当,并且实际中并非重复出现的关键词就意味着高的相关度。那么如果做呢?我们需要根据网页的长度,对关键词的次数进行归一化, 也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中keyword_1和keyword_2分别出现了12次和5次,那么它们的词频就分别是 0.012和 0.005。 我们将这两个个数相加,其和 0.017 就是相应网页和查询keyword_1和keyword_2相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性M就是:TF1 + TF2 + ... + TFN。于是,得分规则变为Score(A) = PageRank × β + ∑M × i × j。
现在看来的得分公式还是有一个比较大的缺陷,直觉告诉我们相关性实质上是文章主题的相关性体现,从关键词的词频为主要入口还是有欠考虑到同时出现这些关键词之间的文章怎么突出他们之间的得分差异。如果一个关键词只在很少的网页中出现,通过它就容易限定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它的权重应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 产生的相关性权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。于是上述相关性计算个公式就由词频的简单求和变成了加权求和,即M’ = TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。因此,得分计算公式改进为:Score(A) = PageRank × β +∑M’ × i × j。
No comments:
Post a Comment