发表于: 2005.11.01 19:03
分类: 研究
出处: http://junsheng.itpub.net/post/860/44596
---------------------------------------------------------------
2. Indexing the pages to create an index from every word to every place it occurs.
思考: 原先认为google是根据比较重要的关键词进行检索的,现在终于明白google为什么能够查的那么全了;
对所有的单词根据书的后面的词语索引方法进行的,当然这需要很大的数据量,对计算机的分布式处理能力要求很高;
3. Ranking the pages so the best ones show up first.
思考: 对页面的排序是需要考虑连入和连出两个方面来考虑的;需要一种基于概率统计的方法进行;
4. Displaying the results in a way that is easy for the user to understand.
思考: 需要用一种可视化的界面进行显示;
搜索引擎相关的技术:Information retrieval, data structure design, user interfaces, distributed system implementation, data oriented approach;
对搜索引擎的理解,关系到对网站页面设计,如何让网站更容易被搜索引擎搜索到?已经又一篇文章在我的blog。
搜索引擎能够做到拼写校正,提示用户检索内容;














