新闻中心

如何劝一个搜索引擎从良

发布日期: 2026-01-21
大家好,我是资本马桶搋。半佛老师是一个每天都在镜子前给自己磕头的硬核男人。最近很多人表示特别馋我的表情包,希望我分享一下如何才能够有源源不绝的骚图。我早知道你们根本不是爱,我就是爱我的表情包。




其实想成为一个真正的斗图大师很简单,关键在于使用合适的工具。每一个聪明的社会人都会使用花样繁多的工具来让自己获得更多的快乐。而搜索引擎配合爬虫就是我最常使用的工具。你们不要乱想,这都是正经的工具。所以今天我打算简单讲讲搜索引擎和信息获取。毕竟所谓表情包也只是信息的一种载体。





对于大多数普通人来说,网上获取信息的主要工具就是通过搜索引擎。既然作为一个获取信息的工具,那么搜索引擎的基本要求就是保证内容的准确性。有时候我只是想通过搜索引擎下载一部简单的电影,结果下来之后发现好像是电脑的显卡坏了,里面人物的衣服的显示有一点奇怪,像这样的搜索引擎就是不合格的。很遗憾的是,大部分搜索引擎它都做不到保障用户搜索到百分之百准确的结果。因为用户到底想要什么,其实是只有用户自己知道的,就像很多年轻人上学的时候喜欢听五月天的歌,但后来用搜索引擎搜索了一番之后,一下子青春就变得奇怪了起来。




那么问题来了,为什么会搜索到其他的东西呢?这就涉及到搜索引擎的运作方式。当你去搜索五月天的时候,搜索引擎会首先用爬虫把互联网上所有包含五月天这三个字的数据以及网页全部抓取出来,包括标题里的五月天,页面内容里的五月天,有可能是五月天乐队的新闻报道,有可能是一首歌里面带了五月天,有可能是一个小学生的作文发到了网上,里面写了五月天真热。我爸说去会所了,但是不带我,所以后来我告诉了妈妈。当然也可以有一些神奇的网站,标题带了这些爬虫,抓取到这些数据之后,会对这些数据进行处理。




详细的基础原理比较复杂,一般可以简单理列为是蛆虫、惊喜、脱敏、打标、驱虫,是指把高度相似的内容屏蔽掉。例如你搜任何娱乐圈明星都可以搜到一堆营销号发的通稿,内容是一个字都不差的。这些都是垃圾信息,只保留一个就够了。




惊喜是指把明显的垃圾信息和错误信息给筛选掉。比如有的网页打开全都是乱码,有的网页打开就是一行字,无线重复,例如10241024102410241024。再例如给我投币,这些信息一般都是会被过滤掉的。脱敏是指屏蔽某些涉及老三样以及明显非法的网站和信息。打标是指给这些抓出来的内容做一个简单的分类,后续给用户排列展示的时候可以用得上。




举个简单的例子,假如想找一个马桶搋的表情包,正常的做法有两种。一种是直接搜斗图网站这四个字,然后用马桶拆作为关键词在网站上搜索。一种是在搜索引擎的图片搜索功中使用马桶拆作为关键词,但是专业人士是直接写爬虫和脚本,把所有可能的相似的都弄出来,然后看着想要什么。




搜索引擎在完成信息的爬取、清洗和分类后会把相关内容进行排序并展示给用户。前面的抓取和分类可以说是纯粹的技部分,而在排序和展示的阶段则是资本的商业考量。到底给用户展示什么样的信息才能让搜索引擎公司利益最大化,这就是一件非常暧昧的事情。毕竟当你掌握了用户的信息入口的时候,只要不要脸,烂钱遍地界。




搜索引擎行的内容把控和内容展示并不是一个技术问题,甚至也不是一个商业上的问题,而是一个选择问题。到底是贪一时的流量,放任垃圾数据和违禁数据存在,甚至为了流量而安排在搜索结果的前列,还是老老实实做搜索,把数据洗干净再端上来,前者赚大钱,后者不怎么赚钱,但又名声。很遗憾是不管什么时代,名声都是不如前时代的。所以在搜索结果中,插广告就是一个非常正常和普遍的行为。一开始插广告的时候,大家因为是第一次,都还比较谨慎,一般是在搜索栏最终结果的右侧有一个比较简单的广告栏,可以一眼看出来。后来就会在搜索结果中加入一些广告,并且明确标注和显眼的标注是广告,再后来这就不太显眼,再后来就会变得和正常的搜索结果看不出什么样子。每一个尝试过搜索引擎加广告的厂商,最后都会惊呼真香。在钱面前脸是什么我根本不知道。




由于实在差的太多了,以至于有时候很多人都在抱怨,连搜索引擎为什么总是在广告里面插,结果还让不让人好好看广告了,希望广告没事插广告本身不是太大的问题,搜索引擎的公司也是要恰饭的,恰饭本身不是罪,有罪的是恰烂,做害人的垃圾广告,不仅谋财还害命。有些搜索引擎甚至形成了一个产业闭环,假如你本来是想在某些搜索引擎上搜一下感冒怎么办,结果出现了一堆神奇的结果。里面各个可疑的医生告诉你,其实不是感冒,而是更严重的病,查查医院好,然后你就被沙雕医院骗了钱,然后你又在搜索引擎上搜索,那被骗钱了怎么办?然后一堆人告诉你可以帮你解决,然后留下了联系方式,然后很快就进入到了给某老师汇款的阶段了。




对了,在这个过程中,你的个人信息还会被拿来卖来卖去。你的搜索行为本身其实就是价值宝贵的资料。因为这代表了你是有需求的,而且是主动的,所以这条信息的转化率会非常高,这在行业里面都是宝贝。为什么你在一个搜索引擎搜索了一些东西,转而很多APP就会出现相关的推荐呢?你猜是谁把你卖了呢?




互联网世界的存在非常多的坑,在搜索结果出来之前,其实你永远不知道会得到什么样的信息,也不知道到底是你找到了信息,还是信息只是一个诱饵,最后你被找到了。而对于有些搜索引擎而言,既然要赚钱,赚谁的钱不是赚的?不法团伙的钱只要不是假钱,自然也可以收着呀。既然要追求刺激,那就贯彻到底喽。你看到的大部分垃圾广告和骗子广告背后都是充值的,而且还是这些搜索引擎的大甲方爸爸,不充钱怎么会变得更强呢?之前校园贷猖獗的时候,在某些搜索引擎搜索助学贷款,搜出来的第一个结果不是教你到学校申请助学贷款,是一水的校园贷网贷,堪称针对贫寒学生的精准收割。




再例如你在某些搜索引擎里面输入教师资格证,第一页夹杂了大量的广告,并且标题起的一看就非常正规。但是现在按照规定,这些广告会明确的标注广告字样。大部分搜索引擎也不敢违,而是各显神通。有的把标注的字体做的非常小有的把字体调细颜色调淡,或者双管齐下,又小又细。




大家不要乱想,理论上搜索引擎的使命是帮助用户准确找到用户需要的信息。但是商业这个东西有趣就有趣在很多东西都是理论纯属参考,一切以实物为准。翻译过来就是有钱就是爹,我是你爹。关于这个我不禁想到了牛顿老师的故事。之前牛顿老师想在网上买一个皮包给女朋友过生日,结果他搜着搜着出现了很多很诡异的小广告,他看着看着就沉入了进去,最后这些以女性身份暗示明显的广告都指向了杭州某男性医院。结果牛老师不仅没有买到皮包,反而还差点丢了。那啥。




或许你会质疑为什么他们可以做的这么跳?因为搜索引擎作恶的代价是非常低的,他们只是提供了信息中介服务,而非直接出手坑害用户。所以在面对抉择的时候,摆脱干系的难度是相对较低的,但是对用户造成的影响却是可以非常恶劣和严重的。毕竟即使是在被推送算法反复冲击的当下,搜索引擎依然是用户获取信息的主要入口。但在搜索结果排序规则不透明的情展示什么内容给用户,其实就是一言堂。而且用户几乎没有监督和反制的措施,最多是用脚投票。所以搜索引擎这东西是不可以垄断的,因为垄断用户信息获取的渠道,其实就掌握了扭曲用户世界观的权利。




你看到的东西未必就是你想看到的东西,也许你本来只是想看几个表情包,结果却因此看到了几个可疑的小广告,最后一不小心自己就上了新闻,成了别人的表情包。哪怕给99.9%的人不会理睬,也一定会有人误触,或者因为好奇点开一些奇怪的广告。考虑到庞大的基数和高的客单价,这个利润是非常可观的。




甚至于2019年的时候,山西招生考试管理中心还发布过一条提醒,要求考生在网上填志愿的时候,一定要直接输入网址,千万不要在搜索引擎里面搜志愿系统的网页,不然有可能误入虚假网站。对这些考生来说,个人信息的泄露还不是最大的问题,花钱买了营销服务也不是什么真正要命的点。真正要命的是,这些虚拟网站上填的志愿信息是无效的,万一真的有人最后错过了正规渠道填志愿,结局就非常魔幻了,给搜索引擎排序,进行竞价排名,这个事情也不是我们发明的,是国外发明的,1998年一个叫做go to发明的扫,而后面很多搜索引擎纷纷效仿,大家纷纷表示真香。搜索结果的信息链其实就是搜索引擎的利益链,不仅仅是用户是利益链的韭菜。其实商家有时候也是,有些搜索引擎会自己写机器人去点广告,吃了商家的广告费,还会把那些想要在搜索引擎参与竞价排名的商家的个人信息打包卖给那些做贷款的,毕竟这些商家肯定有需求,甚至还有搜索引擎直接给这些商家贷款,这才是真正的内在循环,多人运动,就连罗老师看了都要惊呼内行。




再次强调,对搜索结果的页面进行广告植入本身可以理解,任何公司想要生存都要有自己的盈利模式。用爱发电本身就不合理,实际上国外的搜索引擎也是有广告的。但一个大前提是盈利的方式不能违背公序良俗,不能够在结果中形成误导,不然就是在牺牲大众和社会的利益换取金钱。可以当俗人,赚钱没问题,可以卖,但也应有所。除了卖流量,还有一种很有趣的推送玩法,就是人工干预排序,把自身旗下平台的内容进行排序优化,让大家第一眼看到的就全都是自己旗下的东西,也就更破坏了搜索的使用体验。




搜索引擎应该是面向全网的,所以既当运动员又当裁判的行为,就相当于把这个搜索引擎变成了自家内容平台的站内搜索框。这就不是搜索引擎了,这只是一个平台附带的搜索工具。如果说精甲排名是一个选择问题,还不是搜索引擎的死穴的话,那么搜索范围的收窄就是让搜索引擎的存在意义变味。




其实说到底有些搜索钱为什么不再好用了,一个重要的原因是当信息分发可以直接换成钱的时候,赚的太爽了。本身用户的体验和企业的利益未必是抵触的,但是搜索引擎这个场景中,用户的体验和企业的利益有时候纯粹取决于企业的价值观是想多赚还是少赚的问题。Go to虽然把竞价排名变成了搜索引擎的常规操作,却不代表搜索引擎这个行业就只能一直是这种局面。搜索引擎本质上应该是让用户获取可靠的信息的工具。赚钱可以割韭菜稍微有点过了,只要有需求就会有市场。实际上新一代的搜索引擎产品们已经在思考如何解决信息垄断的问题了。很多新进的搜索引擎正在做出尝试,让用户可以更快速的找到需要的信息,尽可能减少干扰。比如阿里旗下的夸克,就是近些年口碑相当不俗的搜索引擎。




核心主打点是两个,一个是没有广告,不仅自身无广告,还能够屏蔽掉小网站本身自带的各种广告,尤其是虚假医疗广告,这严重影响了广大广告爱好者的操作体验,希望广告没事。还有一个特点就是基于AI技术的搜索直达,给予用户的客观问题精准且唯一的答案。什么叫客观问题?就是一定有答案,并且答案一定是明确的。例如马拉松有多少公里,例如地球到月球的距离有多远,例如一颗鸡蛋有多少卡路里,例如北京开车的信号规则。夸克强大的地方在于将这些绝对客观的答案通过AI的方式进行置顶展,让大部分对于知识具有精确需求的人不会被误导到别的内容上。再配合无广告,用后即走,效果非常优秀。




当一个搜索引擎可以不被各种利益关系去干预搜索结果和搜索排序的时候,搜索出来的内容当然就会更加有效。如何让搜索的归搜索,商业的归商业?这可能是搜索引擎整个行业下一步需要思考的问题。




企业到底是想赚一笔快钱,还是想真的好好做一个产品,乃至引导一场行业革命?谋一时还是谋一时?这个问题的答案不在技术,而在企业的价值观。因为大家的技术其实都不差。搜索引擎这个东西发展到现在,经过多次技术迭代,各家搜索引擎的那些传统的技术其实都已经半斤八两,大同小异了。现在要进一步提升用户的效率,帮助用户更快速高效的解决问题,需要的并不简单是技术,爬虫技术、数据储存技术,这些在科技术上都已经多到益处了,用户也不需要更强大的或者更庞大的数据库。并且事实上任何一个搜索引擎对于互联网内容的抓取都不会超过30%,因为巨头之间都是会互相防止对方爬取自己内容的。但任何一个搜索引擎主要的问题也不是这个点,而是搜什么,怎么搜以及怎么展示。在我看来,下一个能够给搜索引擎带来革命的技术就是从文本搜索到图向搜索的转变。




我们回顾搜索引擎的发展历史,制约用户搜索效率提高的关键节点一直都分为两条线,一条是搜索引擎本身的数据采集、标记、分析能力,还有一条其实就是从用户角度完成搜索的便利程度。世界上第一个外部搜索引擎只能能够搜集网址,没有跳转功能,你得自己知道网址,背下来,输进去才行,所以很快就被淘汰了,往后出现了搜索引擎在搜索这个步骤上一步步往更便利的方向走。先是阿里web增加了索引文件源信息的功能,也就是可以搜标题标签了。接着第一个全文搜索引擎ruler出现了,只需要输入全部文件内容中的一部分关键词,就可以获得整个文件信息,并且跳转到所在的网页,这个技术被一直用到了今天,但是其实在很多应用场景之下,用户不得不把大量的时间用来输入搜索关键词,甚至有些需要搜索的内容本身是很难提取关键词的。比如在户外游玩的时候,在路边看到一朵野花,你的女朋友兴致勃勃的问你这是什么花,这个时候你又不知道这个花叫啥,怎么搜,总不能去搜这个又大又白又圆的东西是什么吧,万一搜出一馒头的。再比如一个学生现在需要搜索一道涉及圆锥曲线的数学题,如果把原题输入到传统搜索引擎的文本中,不但非常复杂,而且绝大多数人其实是没有办法在设备上打出这些数学符号和曲线的。




再比如,你在大街上看到了吴彦祖,但你一时分不清他到底是吴彦祖还是半佛老师。而且当你想要打字的时候,你突然发现,言这个东西在形容半佛老师的颜值面前其实是苍白的。关键是这种搜索方式非常没有效率,所以如何拓宽搜索引擎的使用场景,让搜索不拘泥于文本框,甚至让用户摆脱手动输入的限制,其实就是新一代适合于年轻人的搜索引擎革命的最大的机会。这也是搜索引擎市场上的挑战者可能弯道超车的机会。




像夸克APP,认识它的人不多,但用过它的人都会觉得真香。在大家都能够做的文字搜索上,做到无广告和客观问题的精准答案,在新技术图像搜索中给到更高效的搜索体验。整个图像搜索行业中,目前适配的范围确实没有做到万物皆可搜,但是在具体场景、具体类目,例如拍照搜题、拍照识花、商品识别等有明确定义和需求的场景,夸克AI拍照搜索是做的很有诚意的。从文字搜索到拍照搜索,某种程度上让夸克和传统搜索引擎有了质的区别。毕竟左岸化和斗图是两个维度的战斗,看文字和看图收获的快乐是不一样的。任何一种可以被称之为革命的新技术,都是在旧的技术上一步步发展而来的。万事皆有关联,万物皆有起源。




早期的图像搜索原理非常憨憨,本质上还是文本搜索的那一套,也就是通过图文文件的tag缩来搜索相关图像的这种搜索方式比较绕,因为这些特征和因素实际上跟图片的内容有可能无关,所以搜索出很多图像结果可能与你输入的查询的图片毫无关系。比如你想搜一个篮球的照片,而返回的结果却是一只叫做篮球的漂亮的大公鸡。这个现象现在被科学界称之为球王之鸡你太美。你想搜一个大馒头,而返回的结果是404,你百思不得其解,为什么会出现这个结果呢?其实可能是因为这两张图片的文件名相似,所以当时很多搜索引擎会采用人工的方式对图像进行标注索引。比如给每一个熊猫头表情包打上索引熊猫头,但表情包这个东西是无穷无尽的,所以如果图像搜索停留在这一步的话,人工索引是不可能标注所有表情包的。




图像技术和视觉识别技术一定程度上来说是一项历史相对悠久,应用比较广泛的技术。不管是在医学、卫星等专业领域,还是在面孔特征识别等通用技术都已经很成熟了。而对于一个搜索引擎来说,图像检索技术其实是有难度的。因为用户的需求是开放的,不同于医学图片,卫星影像拍摄范围和场景是有限的。而通用搜索引擎接收到的用户图片可能是现实世界中的任何物体,包括电视台不让播的。




同时随着时代的发展,互联网上的图片内容相对过去都有海量的增长,这就带来了一个问题,如何理解用户海量的需求,如何在海量的库中进行检索?过去基于图片内容像素计算这种匹配检索方式,基本上只能在几千几万幅图上进行检索,效果很难保证。但好处在于技术是一直进步的。深度学习模拟人类大脑神经网络的计算方式,让计算机能够理解更多相对抽象的信息,不是那个抽象,就是简单的抽象。云计算等大数据计算能力升级,让我们具备更强的算力来处理现世界中的海量信息。手机摄像头也在日益升级,让普通人上传的图片越来越接近现实世界中的样子。这些时代的变化都让图像搜索的问题在近些年得到本质的解决和改善。




相对于传统的图像搜索,夸克AI技术先识别再检索,有别于过去直接使用网上的图片检索网上相似的照片,夸克能够先理解用户拍照的内容,并且识别用户拍照的意图。不再是简单的去网页中检索,而是去结构化数据库里面检索。当我拍一个商品的时候,夸克会给我相似的商品信息。当我拍植物的时候,夸克就会给我植物的名称和信息,而不会给我一个盆栽商品。




另一方面和AI拍照功能不光能发起一次搜索,基于它的识别能力也有很多有趣的小工具。比如识别文字功能,从印刷体、纸质表格甚至到手写体都能够识别。除了图片内容,夸克的AI技术还能识别现实中的距离坐标等三维信息,从而实现在手机上就能知势力。这些都是对AI能力的延伸应用,去解决具体场景下的用户痛点。




当你不再需要通过文字去描述你需要搜索的事物,能够以拍照或者是图片的形式直接进行搜索的时候。其实这种智能搜索就已经超越了传统搜索框所能容纳的极限,成为了一个更高维度的存在。对互联网上那些无穷无尽的信息来说,传统的搜索引擎就像是一道铁门。用户需要自带钥匙,需要开锁,而且开门速度慢,门能够承载的信息量也有限。而AI技术所重新定义的这种图像搜索方式,就好像是哆啦A梦的传送门,能够用一种崭新的方式把用户送到互联网上的某个角。




任何一个产业的革命背后,其实都是新技术的应用与推动。从人工编辑的雅虎到今天AI辅助搜索,或许在将来还会有另一种超越目前想象的新技术被集成到搜索引擎之中。那时人类获取信息的效率又会再次得到飞跃。当然也有可能技术在进步,现在已经占到了巅峰。但我始终愿意相信人类的可能性,因为人类就是这样一种可以不断创造奇迹的生物。就如同几十年前世界上第一个web搜索引擎诞生的时候,当时的用户无法想象到今天的葵艾拍照搜索一样,今天的我们也可以怀着这样一种期待的心,等待技术带来的惊喜。




把一个产品做到极致,这是属于技术党的浪漫。当年第一代搜索引擎的确很严实,很不方便,但正是这些原始的搜索引擎把互联网带给了无数普通人。夸克在座的是更聪明的智能搜索,同样也是让更多人能够享受到有有价值高效的信息技术。技术是第一生产力,所以哪怕当前AI视图并不是完美的,但依然要努力。因为技术一开始就是简陋的,科技之美就是在丑陋中诞生的,更聪明的智能搜索是在更多看似愚蠢的尝试中诞生的。要看意识,更要看仪式。技术的目的是为人服务,为不能作战的人而战,这才是技术的意义。千万不要因为技术和商业发展的太远,而忘了我们出发的目的。
返回新闻列表