被永远改变的搜索,被低估的百度
微博:@航通社| 微信搜一搜:航通社
通用搜索业务重新得到了巨头的重视,但已经回不到从前。同时,作为搜索引擎的百度并没有衰落,而是体现出触底回升的迹象。
百度官方微博 @百度 最近有点忙。
6 月 10 日,针对哈佛大学医学院一篇预印本论文,百度官微辟谣:“这是非常牵强和不严谨的……我们呼吁相关研究需要更加科学严谨的引用百度数据。”
7 月 1 日,百度再就“鹅厂 vs 老干妈”事件辟谣:“有一说一,这事与我无关。请大家不传谣不信谣,理性吃瓜。”
当天有种说法是“腾讯公司广告业务部因在某搜索引擎上误入诈骗网站,从而导致了一系列事故发生,被骗金额高达一千余万”。
虽然没人明说“某搜索引擎”是哪家,但大家都心照不宣“对号入座”。这说明百度依然是国内通用搜索引擎的“同义词”。
2019 年 1 月底,针对百家号在百度搜索排名靠前的问题,方可成老师写了那篇《搜索引擎百度已死》。同时,也有不少人觉得通用搜索引擎日益让位于淘宝、微博、微信、知乎、头条等各自的站内搜索。
时至今日,通用搜索业务在国内又重新得到了多家巨头的重视,但此时的搜索行业已经回不到从前。同时,作为搜索引擎的百度并没有衰落,而是体现出触底回升的迹象。
搜索业务重新得到重视,但此“搜索”非彼搜索
除已经在市场上的必应、搜狗、360、神马等之外,近期头条搜索、微信搜一搜和内嵌于夸克浏览器内的夸克搜索,也加入了通用搜索引擎的市场争夺。
2020 年腾讯产品经理培训生校招面试题有一道是:
关于微信搜一搜,航通社曾经写过《搜一搜毕业了》详细解读。至于夸克则是在近期异军突起,声量很高,收获了不少自媒体的宣传,B 站财经类“头牌”半佛仙人也发了关于夸克的推广视频。
夸克搜索主推的能力有关键词预测(在用户还没打完字的时候推送最相关的结果),摄像头 AI 识别等。关键字预测的实现并不算很难,但它可能给用户一种隐私被窥视的不安全感——尽管也许只是观感上如此。
而百度 App 的摄像头搜索同样提供动物识别、植物识别、名人识别、商品找同款、测颜值、拍照搜题、情侣头像配对、文字提取、垃圾分类等能力。
但是,现在吸引大家入场的通用搜索引擎行业,本身也已经发生了变化,跟以往的“古典”搜索引擎有很大区别。
百度被称为自家产品的“站内搜索引擎”,而谷歌遇到同类抱怨比百度还要早。早在 2011 年,谷歌在餐厅、商户搜索功能中将自家的商户名录功能置于 Yelp、Tripadvisor(猫途鹰) 等竞争对手之前,就引发了媒体关注。
欧盟在 2017 年发现谷歌通过搜索服务的主导地位,引导用户使用自己的购物搜索服务,并作出 27 亿美元罚款的处罚。
调查报告指出,在谷歌滥用搜索主导地位推荐谷歌购物搜索后,谷歌比价服务的流量在英国、德国、荷兰、法国、西班牙、意大利等国分别增加了 45 倍、35 倍、29 倍、19 倍、17 倍、14 倍。
另一方面,竞争对手比较购物服务的流量大幅下降,一家同类网站的流量在德国、英国、法国分别下降了 85%、92%、80%。这些突然下降也无法用其他因素来解释。
通过将自家服务前置,谷歌地图 Google Maps 也已经将必应、HERE 地图等对手远远甩在身后。
搜索分析师费什金(Rand Fishkin)2019 年的研究显示,现在超过一半的谷歌搜索行为,最终在谷歌本地就能解决,无需再点击其他网站链接。
如果说“古典”搜索的目的,是将人们引导到想查找的信息所在的地方,“用完即走”,那现在的搜索则希望人们在平台内部就得到想要的信息,减少跳出;或者至少要跳出,也得跳到自己对内容有管控的目的地。
“用完即走”这个词,现在连张小龙也都不怎么提起了。
各方都越来越重视对内容平台的控制,这通过交叉入股优质内容平台,和自建内容库来实现。百度对知乎等内容源做的投资,头条发力悟空问答,各家对视频内容的投入,都已经是老黄历了。
来看两个新的:
(1)字节宣布启动头条搜索之后,完成了对互动百科的收购与整合,将其更名为“头条百科”。5 月起,头条百科持续招聘编辑、运营等职位,要求“了解内容结构化、有一定数据导向的运营思维”等。
(2)7 月初,百度发布“百度知道问答掘金招募令”,有优质问答写作能力,在百家号有认证的作者,可以通过答题获得现金奖励。
虽然对知乎的投资,让百度可以在搜索结果中引用更多知乎问答及智能小程序,但百度知道和知乎的产品定位其实有一定差异,有必要同时提升知道的内容品质。
此前,百家号曾针对性地就图集、小视频、动态(类似微博和微头条)等开展优质作者的发文任务活动。
通过搜索引擎或者做搜索,各家还进一步加大了对手机 App 的推广力度,用尽方法把人留在自己的生态内部。
现在的百度 App 实际上是一个顶着搜索名义的全功能网页浏览器,也提供广告屏蔽等实用功能。对普通用户而言,用 App 的另一理由则是百度搜索结果页和百家号文章都不会被折叠。
2019 年春晚期间,作为合作伙伴的百度,在手机浏览器网页版推送大幅提示“这里不是百度 App”,引导用户从手机网页版迁移到百度 App。近来,这一提示措施变成了“常态化”。
如果最近你有使用百度的移动网页版,可能会发现在搜索结果页点击一个“相关搜索”时,就会跳转到 App 下载页。这与头条、知乎、豆瓣等产品移动网页版的策略类似。
效果立竿见影:财报数据显示,3 月份百度 App 日活跃用户数达到 2.22 亿,同比增长 28%;App 端内搜索量同比增长 45%,信息流用户时长同比增长 51%。
让我们来谈谈百家号
在了解了上面这些基础之后,让我们来谈谈百家号。提示一下,这一部分将会非常的“反直觉”,直接挑战你的刻板印象。
对百家号形式与内容的声讨,与对 Facebook 的批评类似。Facebook 通过让内容提供商,如传统媒体在自家发布摘要或全文内容,而减少了用户跳出前往官网。
Facebook 以广告收入分成作为回报,但当媒体发现回报并不如意时,就会撤回向特定平台的分发,极端的就像欧盟,会要求平台给媒体支付保本的版权费用。
回顾《搜索引擎百度已死》一文发布之后不久,百度回应称在搜索结果中,百家号内容全站占比小于 10%。不过方老师对此不以为然,他认为重点是这些百家号结果排序特别靠前,在搜索结果首页占比很高。如果避谈这一点只说“全站占比小于10%”,缺少说服力。
OK,我们就以首屏全是百家号作为前提。
现在,至少在国内,没有任何一家大型的搜索引擎,愿意将结果页首屏的黄金位置拱手让人,全都牢牢把控在自家生态链之内。
2019 年 12 月,百家号加 V 认证向所有自媒体作者开放,原本拥有微信公众号、头条号、知乎等账号的作者可以申请认证。此前各大中央、地方媒体,中央部委、重点政府机构等都已经悉数入驻。
人们认为官方微博和微信的结果是“正常”结果,但实际上都是“一处水源供全球”统一分发的,有时候官网更新速度还慢过社交网络。现在很多媒体事实上已经半放弃了自家官网的更新。
百度真的要搜原文,难道要引导到隔壁腾讯或新浪的地盘?
微信搜一搜会搜到加 V 认证的官微文章,微博搜索会搜到蓝 V 认证的微博,头条搜索会搜到加 V 的头条号或微头条,大家都是在站内圈地自萌,凭什么百度就一定要放弃定位到自己的百家号?
所以,假如真的要对百家号在“百度站内搜索”中的表现做批评,可能也应该从它为用户带来的实际搜索体验好坏入手,才更为实际——而不是仅仅硬性要求将站外内容放前面,这只会引发更多像百度投资知乎一样,对站外内容的投入和控制。
那么,说到百家号是提升了,还是降低了搜索体验,接下来的实验将会比上面更“反直觉”。
我们采用百度的“资讯”搜索(原新闻搜索),搜一个最近火热的关键字:“洪水”。
百度现在采用将“媒体网站”与“百家号”分开的方式,假如选择“媒体网站”会在百度通过收录的白名单媒体网站列表内提供结果,绝对不会出现百家号链接;反之亦然。
采用“媒体网站”过滤器搜索“洪水”的结果如下:
这里,航通社用黑字标出了百度搜索识别“错误”的媒体来源,红字则是命中正确的媒体来源。我们认为“来源”的意思是这个内容最原始的出处。
可以看到,结果令人惊讶:第一屏只有一个来自湖北电视台的文章,属于该网站原创。
其余的,虽然搜索引擎都尽职尽责地根据网址判断来源,以当前的技术水平,却难以分辨那些地方具体是原创的,还是转载的。
比如说“腾讯新闻”这个稿源,实际上是包含大量非专业作者的企鹅号,文章质量也是令人摇头。自从腾讯网改版后,全网内容不分频道及来源,一律以 new.qq.com/omn 开头,使得原先的抓取逻辑失效。
那么,用谷歌会好一点吗?
以下是用谷歌新闻搜索查询“洪水”的简体中文结果:
排除境外网站,谷歌对国内内容的展现并没有强多少。谷歌判断新华网发布的文章有命中,但即使是新华网的链接,点过去看,有的也是转载自人民网、广西报纸等地。
更气人的是甚至有所谓“二传手”:例如有一条是先由人民日报下属“人民视频”发布,被微博“大江网”(江西官方媒体)抹去来源转载,而这条微博被新浪网抓取下来作为一条新闻,又被谷歌收录。
另一条是搜狐转载了澎湃新闻转载湖北官媒《长江日报》的稿子,最后被谷歌抓取到。
所以,寻找国内相关新闻最靠谱的方式……就变成了只搜索“百家号”:
在这一屏内容中,媒体蓝 V 用户发布的内容得到了优先显示。从时间戳来看,也是这些官方账号第一时间发布,确保了内容时效性。
——怎么会这样呢?!
在作者入驻提升的情况下,百家号结果反而比非百家号结果更为精准。因为媒体官网也是来回转载的,澎湃新闻的“澎湃号”和界面的“JMedia”都是自由让媒体网站、自媒体作者签约入驻的,而新京报也悄悄展开了新京号的内部申请。
正是这些外部账号的入住,导致非原创文章仅凭网址判断稿源,会发生误判。这是一个世界性难题。
方可成老师制作的西方媒体查一查小程序和 NewsGuard 等服务,都是最基本的用网址判断媒体属性,但对于在媒体网站转载别处文章无能为力。好在国外很多新闻网站是全原创或大多数原创,但在国内……
我们只能说,就像头条、企鹅、百家等已经做过的一样,如果邀请媒体、个人入驻平台是跟现金、流量等创作激励相结合的话,这应该有助于优质内容的生成,而不是相反。
出现低质百家号内容靠前的问题,本质上和古早的内容农场 SEO、微信平台屡次封杀的“恶意对抗平台规则”一样,需要检讨的是平台的治理能力和技术水平,而不是一关了之。
“巧妇难为无米之炊”的中文互联网搜索
今年高考首日,北大微信推送了一条励志的诗句“须知少时凌云志,曾许人间第一流”,引发争议。
不少人通过搜索发现,疑似后两句是“哪晓岁月蹉跎过,依然名利两无收”,让整个句子的意境完全相反。北大后来也删除了该条推送。
不过知乎用户“渡河”发动好友,在“中华经典古籍库”里钱仲联主编的《清诗纪事》找到了真正的原文全诗,并无网传的后两句。换句话说,那两句补上去的应属后人伪作。
社长看到相关新闻之后,也第一时间,用自己知道的手段做了事实核查,遗憾的是并没有得出结果。不管用百度、谷歌、DuckDuckGo 还是其他任何搜索引擎,永远是传来传去的“伪作”充斥整个结果页面。
社长已经能想到查询该作者名下的所有诗作,为此通过公开资料,发现作者吴庆坻有《悔余生诗集》,被收录在上海古籍出版社《清代诗文集汇编》第 770 册里,更可以在百度网盘找到原书的副本。
《悔余生诗五卷》一共六十四页,而每一页大概是长这样的,看得人眼花缭乱,特别是对本专业并非汉语言文学的社长更是如读天书。
社长后来想到一个窍门,就是数每一页是否有出现“一”字,这样就可以迅速定位到“第一流”去。结果,花了大半个小时翻完了,社长都没发现“曾许人间第一流”的诗句。
最后,当社长看到正确答案还是在花了钱的数据库找到的,觉得也算是尽力了。社长的检索过程已经是一个普通网民借助手头工具,可以做到的事实核查的极限。
你可以想象,普通网民搜索内容时候,看到最上面的结果直接就采信了,这才是最可能发生的情况。
其实,北大引用的是网络流传的“须知少时凌云志”,而原诗是“须知少日b