当网站内容被搜索引擎蜘蛛爬行和抓取之后,就会对网站抓取的内容进行特殊的筛选处理,被称为索引,其中主要的处理方法有提取文字、中文分词、去停止词、去重、正向索引、倒排索引、链接关系计算等。
一、搜索引擎建立索引库的原理
一般在搜索引擎抓取的原始页面不是直接参与排名和处理的,因为在搜索引擎的数据库中有成千上万的内容,我们用户在输入一个关键词之后,需要搜索引擎按照排名顺序对相关联的页面进行逐个分析,不可能在几秒之内给予回复,所以搜索引擎一般都会将抓取的页面进行排查处理,建立相应的索引库,为用户查询结果时做好前期的预备工作。
二、采用提取文字的方法,逐个排查文字内容
目前,搜索引擎主要是以文字内容为基础,在蜘蛛抓取网站页面中的html代码时,用户除了可以在浏览器上看到文字之外,还包含了大量的html标签、java程序等没有办法参与排名的相关内容,因此,搜索引擎需要预处理从html文件中去除标签和程序,提炼出可以参与网页排名的文字内容。
三、运用中文分词法,处理文章段落问题
在我们的中文搜索引擎中特殊的处理步骤就是中文分词,因为中文的词与词之间没有分隔符,每个句子中所有的字都是连接在一起的,我们的搜索引擎需要先识别出那几个字是组成一个词语,还有那些词本身就是一个词语或者句子的。其中,中文分词法有两种方法,一个是词典匹配法,一个是统计法。
词典匹配法是指将等待分析的一段文字与一段事先词典库中现成的词条进行匹配,然后在等待分析的汉字中需要扫描到词典中的词条匹配成功。
相比较而言统计法的优势则是对新词处理反应比较欧快,方便消除每个词之间产生歧义。其实搜索引擎分词的方式主要取决于词库的规模,不管分词算法的好与坏。作为seo从业人员能做的就是在页面上用特殊的方式提醒搜索引擎做某个指令而已,例如,某个字是否与某个词关联或者产生企业的时候,我们都可以人工提示搜索引擎。
三、去除停止词,减少无关词的计算量
在网站页面中,总会有一些词对于内容无关紧要,而出现的频率却很高。譬如:啊、的、哈、之类的感叹词以及却、而之类的副词,还有英文中常见的a、to等,这些词实际上对于页面没有任何影响,属于可有可无类型,搜索引擎在建立索引库时候需要先去掉这些停止词,突出索引数据内容的主旨,减少无关词的排查。
四、消除噪声,净化页面主题
所谓网页噪声不是我们常见的嘈杂的声音,而是页面上对网站没有使用价值的内容。如,版权升温、导航条、广告等,有了这些内容不仅会对主题起到分离的作用,还会影响网站的主旨。因此搜索引擎需要有意识排除不适合的噪音内容,确保内容的整洁度。
五、利用正向索引,编排网站权重信息
通过文字的提取、中文分词、去噪音等,这时候搜索一起你已经是一个特里的个体,可以准确的反应页面的主题,按照划分好的分词,将页面转换为一个完整的关键词组合,记录每一个关键词在整个页面上面出现的频率,然后将这些重要标识信息记录下来。
六、用倒排索引,对网站进行排名
只有正向索引是不能用于网站排名,实际上搜索引擎是将正向索引数据库重置构造成倒排索引,这时整个索引库才算建立完成。
简单的来说,搜索引擎是一个需要内容处理与建立索引库的过程,只有多了解搜索引擎的爬行与抓取规则,多做对用户做有参考价值的内容,才能将网站的优化做好。
免责 声明
1、本网站名称:慧达安全导航
2、本站永久网址:https//www.huida178.com/
3、本站所有资源来源于网友投稿和高价购买,所有资源仅对编程人员及源代码爱好者开放下载做参考和研究及学习,本站不提供任何技术服务!
4、本站所有资源的属示图片和信息不代表本站的立场!本站只是储蓄平台及搬运
5、下载者禁止在服务器和虚拟机下进行搭建运营,本站所有资源不支持联网运行!只允许调试,参考和研究!!!!
6、未经原版权作者许可禁止用于任何商业环境,任何人不得擅作它用,下载者不得用于违反国家法律,否则发生的一切法律后果自行承担!
7、为尊重作者版权,请在下载24小时内删除!请购买原版授权作品,支持你喜欢的作者,谢谢!
8.若资源侵犯了您的合法权益,请持 您的版权证书和相关原作品信息来信通知我们!QQ:1247526623我们会及时删除,给您带来的不便,我们深表歉意!
9、如下载链接失效、广告或者压缩包问题请联系站长处理
10、如果你也有好源码或者教程,可以发布到网站,分享有金币奖励和额外收入!
11、本站资源售价只是赞助,收取费用仅维持本站的日常运营所需
12、因源码具有可复制性,一经赞助,不得以任何形式退款。
13、本文内容由网友自发贡献和站长收集,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系1247526623@qq.com
转载请注明出处: 慧达安全导航 » 解析网站内容处理和索引的原理,寻迹搜索引擎的爬行与抓取规则
发表评论 取消回复