搜索技术入门到精通

Tuesday, January 16, 2007

第二章 2.2 宏观看爬虫 Key Points of Spider

Web上的信息具有异质性和动态性,由于受时间和存储、带宽的限制,不可能把所有的网页都搜集起来,一个好的搜集策略是有限搜集重要的网页。对于网页的重要程度的评定,要依据搜集信息所针对的不同应用而定,从而信息的搜集可以采取不同的策略。而目前这个问题尚无定论,一般按照如下几种指标来共同确定网页的重要性:
1)网页的入度大,也就是被引用的次数多;
2)该网页的父网页入度大;
3)网页有多个镜像ip;
4)网页的目录深度小,用户比较容易达到;
5)网页内容有较高的信息熵;
6)网页的更新频度比较高;
搜索引擎开始工作的时候,以上的参数都无法知道,这是一个渐进的优化过程。重要的页面不一定就是优先抓取的对象,还需要综合考虑其他的影响性能的参数,逐步调优。

No comments: