蜘蛛搜索引擎,什么叫搜索引擎

qinzhiqiang 09-27 15:08 694次浏览

1、 什么叫搜索引擎?

搜索引擎是一个可以为用户网民提供检索服务的系统。因为搜索引擎有一款属于自己的爬虫程序(百度蜘蛛 机器人程序)来抓取收集庞大互联网上的信心,把收集的信息,进行加工整理给予实现排名返回给用户的系统。

搜索引擎的常见分类

全文搜索引擎

百度 360 谷歌 等等之类的搜索引擎我们叫做全文搜索引擎

因为这些搜索引擎都有自己的爬虫程序,可以分为很多综合的类别进行搜索。

目录式搜索引擎

目录搜索引擎现在严格来说已经算不上真正的搜索引擎,属于搜索引擎的最早的模型,需要用户手动来提交自己的网站,那么才会收录你的网站。

元搜索引擎

所谓元搜索引擎指的是自己没有专业的爬虫程序来收集互联网的信息,直接抓取其他的搜索引擎的结果展现给用户。

垂直的搜索引擎

垂直的搜索指的是某个行业或者某个领域深层次的搜索,只能搜索单项的某个领域的大东西。

目前来说 国内最大的搜索引擎是百度 国外最大的搜索引擎是谷歌 2010年被逼推出中国大陆的市场。

搜索引擎的工作原理步骤

第一步:爬行,搜索引擎的蜘蛛是沿着我们网站的链接来爬行我们的网站的,网站每个链接都会对应一个页面。那么蜘蛛沿着我们的链接爬行网站,我们在做优化的时候网站的网址链接就一定不能存在死链接,网站的网址一定要可以正常打开能访问,第二个网址链接层级不能特别长,越长的层级越不利于蜘蛛抓取到链接所对应的页面。

第二步抓取存储

沿着链接,抓取链接所对应的文本内容,那么搜索引擎会把文本存储它的原始的数据库里面。通过抓取的内容你也知道,蜘蛛更加喜欢文本内容,所以我们在做优化的时候不要没有目的性的给网站加入一些 图片文件、视频文件或者flash文件,js文件等等,这些文件蜘蛛很难识别。这些文件也不利于蜘蛛的收录。

第三步 预处理

去重处理

对于大量抄袭雷同的内容,搜索引擎会丢弃不要的,所以要求我们以后在创建内容的时候不要完全抄袭别人网站的内容。

后面我们会教大家原创,伪原创内容。

去停止词处理

对于简单的一些添加的语气词

例如 的 、地 得 啊 吗 之类的词语

美丽中国 ,美丽的中国它会认为这两个是一样的

所以我们在修改内容的时候就不能随便的修改几个字或者几个词,我们修改的力度要大。