时间:2010-07-08来源:网骑士
搜索引擎基本原理三大阶段:排序、索引、抓取。
抓取
搜索引擎会抛出一种被称作“机器人,蜘蛛”的软件根据一定的规则扫描互联网上面的网站 ,沿着网页的链接从一个网页到另一个网页,从一个网站到另一个网站,获得页面HTML代码,并存入数据库。为了采集到最新的资料,会继续回访已抓取过的网页。
索引
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。
排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后返回给用户。