0

SEO核心算法之TF-IDF算法的通俗理解

已有 74 阅读此文人 - - SEO -

想要做好SEO,就要了解搜索引擎的算法,知道其工作原理,排名规则,才能有的放矢,补充短板,那么搜索引擎核心算法有哪些呢?

1、基于文本检索的TF-IDF算法

2、基于链接传递权重的链接算法:Pagerank

3、基于链接再计算的:HITS算法

4、基于链接相关度的:Hilltop算法

5、基于链接计算更加灵活的:SALSA算法

6、更加完善的Pagerank算法

7、基于用户点击行为的结果性排序

对于上述算法,赵亚东SEO会在博客中一一出文章解释,今天给大家讲解一下基于文办检索的TF-IDF的算法。

1、针对于文本检索的TF-IDF算法:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

上述对于TF-IDF的解释较为学术化,通俗的可以理解为一个文件中,一个词语出现的频次越高,它的重要性就越大,具体在SEO中的应用就是关键词密度,在一个网页中只有关键词的密度在一定比例才会更好的被搜索引擎提取收录给与合理的排名。关键词密度的大小站长工具给了一个范围大概在2%-8%,一般认为在5%左右最为合理。

同理在一个语料库中,如果一个字词的频率出现的越高,对应的文献内容也就越多,简单理解为关键词的竞争度,关键词的竞争度越大,在搜索引擎中展现的机会就越小,这点也很容易理解。

站在SEO优化者的角度上对TF-IDF的理解,就是关键词的布局,对于目标关键词在网站的首页以合理的密度出现,能够最大化的获取网站权重,获得搜索引擎友好的排名,对于长尾关键词,这部分词语主要才内容页呈现,网站的内容标题应该包含长尾关键词,长尾关键词围绕核心关键词去做,文章内容以一定的频次出现长尾关键词,这样的内容被收录之后才能获取更好的排名。

期待你一针见血的评论,Come on!