百度如何判断网页与关键词的相关性?分析SEO写作技巧
在一些站长群里面,很多站长会和博主一样常常会听到一种声音,我每天都在写原创文章,可是关键词什么排名都没有。似乎大家听惯了这种声音,认为做SEO就是看百度的脸色,侃侃而过。当然,也有站长会支招,除了写优质原创内容,也要提升网页关键词密度,网页关键词密度控制在2%-8%之间,然后分析关键词布局,首段和结尾一般会出现关键词。这些文章SEO写作技巧已被众多站长所接受,很多站长也套用此方法去优化自己的网页。这些大多是前人的经验之谈,其中却存在了很多SEO站长不知道的原理,作为一名SEO工作者,我们应该有探索精神,下面尹华峰SEO博客做个浅析。
百度如何判断页面与关键词的相关度
一个网页是否和关键词相匹配,首先SEO站长要明白两个概念,一个是词频,一个是密度。搜索引擎刚发展的时候,很多站长都知道堆积关键词就可以轻松获取排名,这就是词频。显然这个算法是有弊端的,所以衍生出密度这个说法,密度的出现对关键词堆积的行为有了一定的遏制。
上面说到词频这个概念,我们要了解一种统计方法TF-IDF。TF就是词频 (temfrequency),IDF是逆文档频率(inverse document frequency)。针对一个特定关键词,包含这个关键词的文件数量除以数据库文件总数,得到这个词的文件频率。反过来,文件总数除以包含这个词的文件数量(通常真正计算时还要取对数) ,就得到逆文档频率。所以,语言中越常见的词,包含这个词的文件数越多,文件频率也就越高,逆文档频率越低。
逆文档频率代表了这个词的语义重要性或者说区别文件的能力。举例来说,“的”通常在所有文件中出现,文件频率极高,逆文档频率极低,也就是“的”这个词的语义重要性很低,几乎无法用来代表和区别文件内容。“搜索引擎”这个词只出现在一小部分文件中,逆文档频率要高得多,对文件内容来说重要性要高得多。
搜索引擎在判定页面与什么关键词更相关时,不是单纯考虑词频,而是计算词频乘以逆文档频率,也就是TF-IDF。逆文档频率低,即使词频高,页面与关键词相关性还是不高。举个例子,如果要优化“新加坡旅游”这个词组,在百度搜索“新加坡”返回27600000个结果,搜索“旅游”返回100000000个结果,包含“新加坡”的文件数远小于包含“旅游”的文件数,百度数据库的文件总数是固定的,所以“新加坡”的逆文档频率大于“旅游”。或者换句话说,“新加坡”这个词在区别、辨识文件能力上比“旅游”这个词要高。在优化文案时,增加“旅游”出现次数就没有增加“新加坡”次数更有效。
分析SEO站长如何写作文章
说到文章写作,原创是做受欢迎的,要突出内容的差异化,并且符合用户的需求,这些可谓老生常谈。这里博主只谈下关键词的在网页的布局,提升百度搜索引擎判断网页与关键词的相关度。
1、网页标题优化
网页最基础的三要素是title、keywords和description,这三个标签可以最直接告诉百度网页所表达的是什么内容,而标题title被赋予的分值是最高的,在写title时切记要包含优化的目标关键词,可以做到用户在搜索时直接匹配关键词。当然,标题不宜太长,能够概括文章主旨即可。
2、正文关键词匹配
正文内容输出要自然,在进行SEO写作时要对关键词做个简要分析,自己是否完全理解了关键词的含义,自己是否能够组织语言写篇文章出来,能写出来最好,写不出来可以先阅读他人的文章然后用自己的语言来表达。即便是自然写作,正文首段和尾段至少要出现一次关键词,如果是生僻的关键词,在文中也可以对其进行释义,若出现其他网页的关键词时,还可以给关键词设置锚文本指向该网页,可以更好提升网站整体关键词的相关性匹配。
3、相关文章的聚合
除了以上两点,我们还可以添加相关性文章阅读和tag标签,帮助搜索引擎判断当前网页属于什么范畴,相关度高的文章也可以起到一个辅助的作用,对网页和关键词相关度匹配还是极有帮助的。
结语:当然,以上是简单的一个理论分析,写这篇文章只是作为一个启发。真实的百度搜索引擎在计算相关性时比简单计算复杂得多 ,其实文章关键词的密度保持多少是没有定论的,SEO或编辑在进行文章写作时,完全没必要考虑这么多。还是那句话,只要自然写作,关键词必然会自然融入,就足够了。