搜索技术入门到精通

Wednesday, January 10, 2007

第一章 概述 Summarization of Search Engine Architecture


搜索引擎的架构是编写一个搜索引擎所需要考虑的第一个问题,The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文对此问题做了全面的阐述。最大的功能模块可以分为:爬虫、存储、索引和web服务。爬虫负责不间断地爬取目标网站的内容,维护一张url的列表,并按照不重复的原则周期性工作;存储需要把过滤掉html tag的内容存储到本地,当然有很多内容是直接过滤的,比如js代码、影音流、图片等;然后对存储下来的内容进行批量索引,最终所有的索引内容需要合并到同一个索引中;那么有了一个建好的倒排索引,配合后台的查询语句,就可以开始web服务了,对于被检索的keyword,根据pagerank再结合内容的匹配程度,将结果呈现出来。对于用户来说,整个过程是透明的,只需要一个输入就可以得到所有可能的结果。

No comments: