搜索引擎的工作原理

百度搜索引擎的相关工作原理做一下小结:

成都创新互联10多年企业网站制作服务;为您提供网站建设,网站制作,网页设计及高端网站定制服务,企业网站制作及推广,对成都办公窗帘等多个领域拥有丰富的网站营销经验的网站建设公司。

搜索引擎就是通过一种简单的搜索,通过这种搜索能够查找到自己所需要的信息,像一些知名的所搜引擎主要有百度、谷歌、360、soso、必应、雅虎等等。

搜索引擎的抓取收录原理流程:抓取->过滤->存储索引库->展示排序

第一步:搜索引擎爬取。蜘蛛都是通过来爬取网站页面里的超文本链接来顺藤摸瓜的,同时将所搜取得页面信息放到缓存里面。

1.爬取方式:深度抓取、深度抓取。

深度抓取是指先抓取完一个栏目的内容页,然再换个栏目以同样的方式抓取。

广度抓取也称之为横着抓取,它是指先抓取完每个栏目也,再抓取每个栏目页下面的内容页。

2.蜘蛛很难识别的内容

蜘蛛虽然很强大,但是由于受到技术的限制,并不是所有的信息都能够识别过来,像Javascript代码,iframe框架代码机构,图片,flash(视频前后加文字辅助搜索引擎识别),需要登录之后才能获取的页面信息,嵌套table等都很难识别,所以这时候你应该注意哪些问题,例如js代码应该放在页面底部,图片借助于alt、title属性辅助识别等等技巧。

第二步:过滤工作

并不是所抓取到的信息都是有用的,也并不是所有的信息都将保存在数据库中,搜索引擎需要进行相关的过滤工作,将会把那些低俗,没有价值质量,通过一些列采集,内容质量不丰富等信息过滤掉,展现在用户面前的都将是存在一定价值的内容。

第三步:建立索引缓存数据库

蜘蛛抓取过来的页面内容并不会立马存储到自身的数据库中,而是建立一个临时的索引数据库,经过相关的操作在进行一定的判断。

第四步:搜索引擎展示排名排序

由于搜索引擎进入到用户点击时代,搜索引擎会把索引数据库里面的信息的决定权交给用户,让用户

来决定那个质量的高低,这样然后再把那些索引数据库里面的内容展现出来,同时也把这些信息转化存储到自身真正的数据库中。所以再有了我们在搜索引擎所搜几的结果,搜索根据各种算法进行排序,将质量最好的十个结果放在第一页,这就是整个搜索引擎的大致工作原理,虽然不同的搜索原理有所差距,但是核心是一样的。


本文题目:搜索引擎的工作原理
链接地址:http://scjbc.cn/article/dghihhj.html

其他资讯