搜索引擎工作基本原理，广州搜索引擎关键词优化排名公司

2019/10/31 次浏览

　　对于一个SEO新手来说，你不需要考虑太多的东西，明白了伪原创也是制胜的法宝的真谛，了解获取外链资源的方法，足以让你受益匪浅。而随着SEO工作的不断深入，你也就会慢慢的发现充分利用好网络给予你的一针一线的重要性。了解搜索引擎的工作原理，其意义自然不在话下。

　　搜索引擎的工作原理，在我们的培训中也经常会被提及，简单来说，主要是三个步骤，爬行和抓取，预处理（因为索引是预处理中主要组成部分，故也有人将这一步称为索引），排名。排名这一块设计算法问题，暂且不去深究，这里主要说说爬行和抓取以及预处理两个方面。

　　通过蜘蛛程序，各搜索引擎在访问网站时都会先去查看网站根目录下的robots.txt文件，从而获取网站中被禁止爬取网址的信息。对于被禁止抓取部分的网址，不会被搜索引擎收录，但是需要注意的一个现象是，百度目前会对部分将百度蜘蛛屏幕的网站以下列类似淘宝网的形式显示，据个人不完全观察发现，这种现象正逐渐变的普遍起来（特别强调一点，这不是说百度不遵守robots协议了，打开此类收录网址的快照，你会发现快照为空）。

　　为了获取更多的信息，蜘蛛会通过跟踪页面上的链接来抓取页面。从理论上来说，蜘蛛可以通过链接抓取整个互联网上的信息，但是在实际操作中，考虑到页面的复杂程度，蜘蛛会采取深度抓取和广度抓取两种方式来进行页面抓取的工作。为了避免重复爬行和抓取，搜索引擎会建立包括已发现但未被抓取以及已被抓取的两个网页地址库进行参考对比，而被抓取的页面会进入原始的页面数据库。到此为止，原始数据库的建立就告一段落了。

　　原始数据库建立完毕，搜索引擎会对网页进行文字提取的处理，当然，除了页面上显示的文字外，搜索引擎还会对诸如meta标签、flash替代文件，锚文本、alt标签等部分的文字进行提取。提取文字完毕，便会进入下一个阶段：分词。

　　不管百度算法多么垃圾，但是不可否认的是，百度的中文分词技术在搜索引擎中的霸主地位无人可以撼动。对于页面上抓取到的文字，搜素引擎会进行分词处理，比如将“瘦小腿方法”分为“瘦小腿”、“方法”两个部分。而分词的方法，一般会有词典与统计两种手段。词典嘛，不需要太多解释；至于统计，是指通过分析大量文本从而计算字与字之间相邻出现的概率，概率越大，越容易形成一个词。百度目前是将两种方法结合使用，来达到最佳的效果。