小潘杂谈

天津seo博客(重庆SEO博客)

时间：2020-10-26 11:27:04 作者：重庆seo小潘来源：互联网

如何计算关键词在文章中的重要性，在网上找了很多资料，都提到了这个算法，就是文章提取关键词TF-IDF算法。文章提取关键词TF-IDF算法总结 TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个关键词库中的词对每一篇文档的重

“如何计算关键词在文章中的重要性”，在网上找了很多资料，都提到了这个算法，就是文章提取关键词TF-IDF算法。

文章提取关键词TF-IDF算法

总结

TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个关键词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。

TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式：

TF值算法

TF：关键词j在文档中的出现频率。

比如，一篇文章一共100个词汇，其中“内蒙古seo”一共出现10次，那么他的TF就是10/100=0.1。

这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性（出现频率越高就越重要），其实不然，单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。这里我们要引出IDF，来帮助我们解决这个问题。

IDF

IDF，英文全称：Inverse Document Frequency，即“逆文档频率”。先看什么是文档频率，文档频率DF就是一个词在整个文库词典中出现的频率，就拿上一个例子来讲：一个文件集中有100篇文章，共有10篇文章包含“机器学习”这个词，那么它的文档频率就是10/100=0.1，逆文档频率IDF就是这个值的倒数，即10。因此得出它的计算公式:

IDF值算法

IDF：词语的逆文档频率

+1是为了防止分母变0。

于是这个TF*IDF就能用来评估一个词语的重要性。

IF-IDF值算法

还是用上面这个例子，我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词，研究某篇500词文章，“重庆seo”出现了20次，“而且”出现了20次，那么他们的TF都是20/500=0.04。再来看IDF，对于语料库的100篇文章，每篇都出现了“而且”，因此它的IDF就是log1=0,他的TF*IDF=0。而“机器学习”出现了10篇，那么它的IDF就是log10=1,他的TF*IDF=0.04>0，显然“机器学习”比“而且”更加重要。

总结

这算法看似简单，实际上搜索引擎优化啊，文本分类方面用的挺多的，面试时也常常作为信息论知识储备来出题。怕什么真理无穷，进一寸有一寸的欢喜

重庆小潘seo博客

重庆小潘seo博客

小潘杂谈

天津seo博客(重庆SEO博客)

怎样建设网站(如何制作自己的网站)

怎么建设网站(搭建个人网站)

相关文章