一个合格的SEOer需要对搜索引擎的结构有一定的了解,这样在进行seo时可以做到心中有数,有条不紊,而不必拘泥于固定的优化方法和技巧。而此时要分析的索引器,它是搜索引擎结构中一个比较重要部分。
索引 器第对搜索引擎是比较重要的,比如:我们熟悉的百度新闻,它是“由机器每5分钟自动选取更新”,比较具有实时性,并且数据量也是相当的大。此时索引器的算法对索引器的影响就显得十分突出了。因此有人说,一个搜索引擎的有效性在很大的程度上取决于索引器的质量(精确的说应该归功于索引器的索引算法)。
下面我们一起来系统了解索引器的功能,索引器的功能是理解搜索器(之前我在A5上发表过一篇“SEO需知其所以然之——搜索器”的介绍)搜索的信息,并对收集回来的网页进行分析,提取相关网页信息,如网页的关键词,页面使用的编码,网页URL等等。然后更具搜索引擎的相关算法进行大量复杂的计算,得到一些相关信息,然后利用这些相关信息建立相应的网页索引数据库。
1. 索引项
通过前面的介绍,你一定了解了索引器的一些知识,下面有必要对索引项有所了解。什么是索引项了?举个例子,比如我们平时所说的索引器索引的时间,编码,作者,标题等等都属于索引项。
索引项可以分为两种,一种是客观索引项,另一种是内容索引项。其中客观索引项是与文档的内容无关的,比如,我们发一遍帖子,里面的发帖作者,发帖时间,帖子地址等等都是客观索引项;而内容索引项是反应文档内容的,其理解起来就很容易了,在此就不举例了。内容索引又可以分为单索引项和多索引项两种。
2. 中文分词
提供中文分词,你一定会想到全球最大的中文搜索引擎——百度,因为百度搜索引擎在中文分词上有着深厚的技术功底。一般搜索引擎索引英语单词或者句子时候,是比较容易提取的,因为英文单词之间是用空格分开的,而这一切都是约定俗成的。但是对于汉语书写的句子,就不能凭空格区别了,必须要进行词语的切分,也就是我们常说的分词。
中文分词是文本提取的基础,对于输入的一段中文,然后进行中文分词,然后搜索引擎达到识别语句含义的效果。
中文分词的方法一般可以分两种,一种是机械匹配方法(基于字符串匹配的分词方法),另一种是概率统计方法。其中机械匹配是建立在已有的词典大全上的,是和里面词语匹配而得到的分词结果。它一般分词方法有:正向最大匹配法(由左到右的方向),逆向最大匹配法(由右到左的方向),最少切分(使每一句中切出的词数最小)和双向最大匹配法(进行由左到右、由右到左两次扫描)。概率统计方法是通过概率统计后,然后再进行处理而得到分词。
3. 对seo的启示
根据上面分析搜索引擎索引器的原理,我们可以粗略判断一个搜索引擎的技术成熟程度,例如上面说到百度5分钟自动更新新闻。如果网站是新闻资讯类的,可以注重信息发布的实时性;我们在确定网站的核心关键词和关键词时根据中文分词原理,去掉冗余的词语,把网站最核心的关键词反馈给搜索引擎,这样搜索引擎会给网站一个不错的排名。
seo技术不仅仅是这一方面就能攻无不克的,还需要整体了解搜索引擎的结构和工作原理的。当然我会在后面陆续分享一些搜索引擎的知识,并分享自己根据这些原理和几年的seo实战经验。
本文由九州站长学院()原创,首发于A5,转载请注明文章来源;同时热忱欢迎广大从事seo的朋友一起交流,共同进步。谢谢!
A5创业网 版权所有