以中文分词的搜索引擎算法逻辑,讲解分词逻辑
分词在做淘宝的运营圈子是很容易被提及的一个词汇和概念,运营喵通过对搜索引擎分词原理的研究,去进一步优化标题和关键词撰写的手法和标准。做阿里巴巴国际站也是如此,注重搜索引擎对英文长句的拆分,词组的分词和理解,也是很有必要的。
这篇文章为主的祥助先以中文分词的搜索引擎算法逻辑讲解一下我学习后理解中的分词逻辑,英文分词后续会继续更新,可以多多关注
1
紧密性
词组的紧密性:紧密性原则是写标题的优先考虑原则,配合生意参谋的数据分析工具,获取这些买家自身输入的搜索行为词,保证原则上不做分割,维护其紧密性
2
通顺性
语句的通顺性:堆砌词组,堆砌关键词,堆砌标题是很多年前的手法了,这里不用细说,是一定要规避堆砌的。因此写标题的时候要考虑的一点是语句的通顺性(虽然买家看首焦图来决定点击的行为轨迹更大,而不是看标题,相信很多人买一些并不要求很高的技术性或产品匹配度的产品,都是直接看图就买,不会仔细看标题)但是,现在是2019年了,AI算法和词意的判断准确度已经有了很大的提高,因此标题不仅仅是给访客看,也是要给搜索引擎看的。保证语句的通顺性,可理解性,能辅助加大搜索算法对产品的理解和二次判断,是很必要的
3
逻辑性
分词的逻辑性:分词常规算法上基础原理分为最大正向匹配,逆向最大匹配法,双向最大匹配法
最大匹配
什么是最大匹配模型?
首先什么是最大匹配?最大匹配是指以当前已有词典为数据库,捕获词典数据库中最长的单词为第一次取字数量的扫描串数据,执行扫描
例如数据库中最长的单个词为“中华人民共和国”,统计共有7个汉字字符,最大匹配的计算算法则是按照起始字数为7个汉字。然后逐字递减,每次减少1个词,进行扫描和分析,同理进行第三次,第四次的匹配,在对应的词典中进行查找。
注:切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术 和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者。
而正向,逆向,双向就是基于上面这个扫描和分词逻辑进行的,下面我以”我们在天文博物馆玩“一词举例子:
最大正向匹配:从左往右,或者说从前往后,从开始往结束进行扫描
那么,我们..........
开始吧
扫描1:从左往右取7个字-我们在天文博物,扫描7字的词典数据,不存在此类词语,执行下一次扫描
扫描2:我们在天文博,扫描6字的词典数据,不存在此类词语,执行下一次扫描
扫描3:我们在天文,扫描到5字的词典数据,不存在此类词语,执行下一次扫描
......依次同理
当执行到扫描6的时候,扫描到我们,存在这个词语,因此分词:我们,我们这个词搜索算法分析和理解出来了,存储:我们
那么下一次要执行的就是去掉已经识别和分词的“我们”,开始执行对”在天文博物馆玩“的扫描和分词,按照上面的程序运行,依次类推扫描1:在天文博物馆玩,扫描7字的词典数据,不存在此类词语,执行下一次扫描
扫描2:在天文博物馆,扫描6字的词典数据,不存在此类词语,执行下一次扫描
扫描3:在天文博物,扫描5字的词典数据,不存在此类词语,执行下一次扫描
Load
以此同理,一直这样扫描和分词,最后分出:我们/在/天文/博物馆/玩”,其中,单字字典词为2,非词典词为0。
而逆向最大匹配法的思路是即从后往前取词,其他逻辑和正向匹配的相同。
不过正向匹配和逆向匹配都有其缺陷,因此搜索引擎也会运用双向最大匹配法和双向最大匹配法。分别计算正向最大匹配和逆向最大匹配的结果
计算逻辑:非字典词(越少越好)+单字字典词(越少越好),最后统计出正向和逆向的这个结果和的数值
Load
假设:
正向:非词典词=2,单字词典词=3,共5
逆向:非词典词=1,单字词典词=2,共3
取决其中数值更低的作为结果,那么选择逆向作为输出,输出逆向最大匹配时候的分词的逻辑结果
小结尾
零售春风吹满地,运营喵们真牛逼。在这个懵逼树上懵逼果,懵逼树下你和我的年代,风雨飘摇,电商平台,搜索算法变幻莫测。辛苦的运营喵还是得烧脑的学习一些搜索引擎的底层逻辑 SEO运营的思维