您的位置:首页 > 营销百科
搜索引擎优化SEO算法之TF-IDF算法
曼朗策划 2015-07-21

  一、TF-IDF算法是什么意思

  搜索引擎对于页面权重的计算有很多的算法,其中就有一项十分著名的算法,英文简称是TF-IDF。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。含义如下:

  TF:词频

  IDF:逆文本频率指数

  TF-IDF=TF*IDF

  可能大家对这个名词比较陌生,但是,了解seo的朋友应该听说过关键词密度吧,TF词频的就是大家所熟知的关键词密度。TF用来判断一个页面的相关度。页面的相关性对于网站的排名影响很大,同一个关键词下,相关性越高的网页,百度会觉得它越重要,从而给与这个网页更好的排名。但是,千万不要为了提高关键词密度而在网页中叠加关键词哦,如果一旦被百度识别,就会受到惩罚。

  二、TF-IDF算法如何实现的

  TF为词频的意思,是指一个词出现在页面中的次数,如果一篇文章的总词语数是200,而“网站优化”这个词出现了4次,那么“网站优化”这个词频TF=4/200,也就是0.02。一般来说,这个词频(关键词密度)越高,代表页面越相关。

  而IDF为逆文本频率指数,听起来有点晦涩难懂,不要紧,我举例说明下。假设“网站优化”在N(2000)个页面出现,总文件数为M(1亿),那么文件频率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗的来说,就是包含“网站优化”这个词的网页总数越多,这个词就变得越不重要。

  一个网页是很多的关键词的集合,搜索引擎并不会给所有的词加分,我们需要一个识别度高的词来为页面加分。例如:搜索引擎收录一万亿个页面,应该说每个页面都会有“的、是、中、地、得”等等词,这些高频词也叫噪音词或停止词,搜索引擎会去除这些词,所以这些词的加分权重其实应该是0。然后再分别计算其中包含的关键词权重。

  三、TF-IDF算法的具体应用

  其实在搜索引擎检索中,计算权重的时候,会根据每个词分词来计算,例如:“SEO网站优化的网站建设公司”这个词。

  假设:“SEO”页面检索数位2000万,“网站优化”的检索数为1000万,“技巧”的检索数为50000万

  搜索引擎索引总数假设为100亿。

  某个网页去除“的、是、中、地、得”停止词后,总共被百度切分为400个词。”seo”出现8次,”网站优化”出现10次,”网站建设公司”出现16次。

  那么它们各自的词频:

  TF(SEO)=8/400=0.02,

  TF(网站优化)=10/400=0.025

  TF(网站建设公司)=20/400=0.04

  那么搜索“SEO网站优化的网站建设公司”这个页面的相关度为:

  TF(总)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(网站优化)= LOG(10000000000/10000000)=3

  IDF(网站建设公司)=log(10000000000/100000000)=1.69897

  这么算下来之后,每个词为搜索“SEO网站优化的网站建设公司”为页面的权重和相关度贡献的值分别为:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(网站优化)=0.025*3=0.075

  Tf-idf(网站建设公司)=0.04*1.69897=0.0679588

  由此可以看出,虽然技巧出现的频率更高,但识别度没有SEO和网站优化高,所以为页面的权重贡献度并不是太大。一个词的预测能力也就是识别度越高,那么这个词的权重越大,反之则越小,看到“网站优化“可能你就已经基本了解这个页面要讲什么,但是看到网站建设公司,你可能还不是太明白页面的主题。 当然TF-IDF算法只是搜索引擎的算法的一个点,另外比如页面标签的使用例如H标签,搜索引擎纠错算法,外链内链接的投票,页面相似度,url路径层次等等也是很重要的点,以后相继会提到。

猜你感兴趣的内容
/* * _zzot['zzsiteId'], _zzot['zzId']用默认值,不能改动 * 用户名,用户id,其他跟踪参数尽量赋值,如果没有,可留空,如: * _zzot['userName'] = ""; */