搜索技术入门到精通

Thursday, April 05, 2007

第四章 4.1 准备工作 Prepare for Indexing










网页的内容经过爬虫爬取之后,按照不同的类型进行分析,成为相对“清洁”的文本之后就可以开始建立全文索引了。分析的过程包括大小写转换,过滤标点符号、没有意义的虚词和网页的格式代码。可以把分析看成是一个过滤的过程。

No comments: