skip to main
|
skip to sidebar
Search Engine Hacks
搜索技术入门到精通
Thursday, April 05, 2007
第四章 4.1 准备工作 Prepare for Indexing
网页的内容经过爬虫爬取之后,按照不同的类型进行分析,成为相对“清洁”的文本之后就可以开始建立全文索引了。分析的过程包括大小写转换,过滤标点符号、没有意义的虚词和网页的格式代码。可以把分析看成是一个过滤的过程。
No comments:
Post a Comment
Newer Post
Older Post
Home
Subscribe to:
Post Comments (Atom)
Blog Archive
►
2008
(2)
►
April
(2)
▼
2007
(22)
►
May
(2)
▼
April
(8)
第四章 4.3 分词原理 Chinese Word Parsing Algorithm
第五章 5.2 得分规则 An Simple Scoring Rule
第五章 5.1 网页等级算法全面阐释 Analysis of PageRank Algorithm
第五章 排序规则 Ranking Rules
第四章 4.2 倒排索引基本原理 Principle of Inverted Index
第四章 4.1 准备工作 Prepare for Indexing
第三章 3.4 缓存 Search Engine Caching
第三章 3.3 排队系统的优化 Application of Queueing Theory
►
March
(2)
►
February
(1)
►
January
(9)
搜索技术入门
搜索技术入门到精通
第一章 概述 Summarization of Search Engine Architecture
第一章 1.1 兴趣的开始 Game Is Now Beginning
第一章 1.2 声明 Declaration
第二章 爬虫 Spider
第二章 2.1 书籍推荐 Spidering Hacks
第二章 2.2 宏观看爬虫 Key Points of Spider
第三章 并行分布式文件系统 Parallel Distributed File System
第三章 3.1 I/O调度方式 Choose I/O Schedule
第三章 3.2 文件共享入门简介 Introduction of File Sharing System
第三章 3.3 排队系统的优化 Application of Queueing Theory
第三章 3.4 缓存 Search Engine Caching
第四章 索引 Full Text Indexing
第四章 4.1 准备工作 Prepare for Indexing
第四章 4.2 倒排索引基本原理 Principle of Inverted Index
第四章 4.3分词原理 Chinese Word Parsing Algorithm
第五章 排序规则 Ranking Rules
第五章 5.1 网页等级算法全面阐释 Analysis of PageRank Algorithm
第五章 5.2 得分规则 An Simple Scoring Rule
第五章 5.3 影响排名的其他因素 Other Factors
第五章 5.4 PageRank算法改进 Improvement for PageRank Algorithm
distributed file system
Loading...
车东[Blog^2]
Loading...
搜索技术 入门
Loading...
inverted index
Loading...
No comments:
Post a Comment