搜索技术入门到精通

Wednesday, May 09, 2007

第五章 5.4 PageRank算法改进 Improvement for PageRank Algorithm

PR算法的复杂度规模是log(n)n是网页的数量。网页权值在算法执行过程中是一个振荡收敛的过程,这其中有两个主要矛盾:1.节点的数量巨大,内存成为瓶颈之一。2.巨大的2维矩阵每次计算消耗时间巨大,时间效率上也是瓶颈;其中大部分网页的权值比较低,而且都是浮点数计算。

改进思路一:迭代计算的次数和矩阵的规模(链接的个数)有一定的比例关系,例如322M个链接需要52.5次迭代,161M个链接需要45次迭代。可以省略算法中矩阵中作减法操作的时间。

改进思路二:分而治之,对一个独立域名下的网页权值独立计算。比如http://www.zju.edu.cn下的子域名在爬虫抓取数据的过程中独立地计算相对网页权值,记作PR-R。然后再以域名为单位,做全局域名之间的权值计算,得出域名对应的权值PR-T。所以,最后域名下各个页面的权值等于PR-R×PR-T

改进思路三:采用加速收敛的方法。每次迭代都会得到一个n维偏移向量p,但是取偏移为pkk>1)作为此次迭代的偏移向量。

改进思路四:减少计算量。对大量的权值低于一定限值的网页,计算过程中忽略其链接产生的权值分配。

第五章 5.3 影响排名的其他因素 Other Factors

域名中以goveduorg结尾的网站应该具有较高的网页权值。Gov是政府网站后缀,edu是教育机构,org指非盈利的组织。

搜索引擎的基本设计思路是若干个结果去覆盖相应用户需求,其中可能有大量不相关的内容存在,如果使得比较优质的结果保留下来,并且能使得后面使用的用户能方便地搜索到?点击率成了重要的判断数据。因此,上一节中提到的得分公式变为Score(A) = PageRank(A) × β + M’ * i * j + CTR。这样一来,保证了优质的结果能长期占据搜索结果第一页的位置。

其中,CTR的数据来源由两部分组成:

1) 搜索列表页面中的点击记录。

2) ToolbarGoogle)跟踪到的用户访问网页的频率,以及这些目标网页中链接的点击记录。

如果同一个网站多个页面都占据了第一页的结果,会造成搜索结果的不公正,需要对同一个网站的其他页面乘以一个衰减系数,调整第一页排名网站的构成。

对于排名优化的作弊网站,需要跟踪其在搜索引擎中得到流量的表现情况。如果作弊程度严重的,给予一定惩罚。