DuckDuckGo搜索引擎

2020-05-20 14:02:12 网络推手刚总

2018年有许多故事能够写,可是到最后一天的时分,让我选一件事来写,我想写的是duckduckgo这个查找引擎。选择它是有原因的,这个查找引擎创始于2008年,正好是第10个年初。
解读DuckDuckGo:另一个查找引擎的故事 查找引擎 好文同享 第1张
即便在今日,听说过这个查找引擎的人也不多。上个月(2018.11),它的每日查找量第一次超过了3000万次,许多科技媒体用非常小的版面报导过这件事。中文也有报导,基本上便是“一句话新闻”这样的待遇,没人多想什么。这不意外,每天3000万查找听起来不小,可是放在整个查找商场能够算的上微乎其微。做为比照,Google早就不再发布每天精确的查找量,但根据前几年发布过的数字和增长率,大致能推算出来,一般被以为是4万~8万次查找每秒。即便用最低猜测,要超过duckduckgo一整天查找量,Google只需花750秒==12.5分钟。
在查找引擎商场上,每天3000万查找量太小了,比被所有人都以为早就完蛋了的Yahoo查找还少好几倍。可是这样一比照,这个在查找引擎商场只占0.x%份额的产品竟然存活了10年,这便是一个有意思的故事。再考虑它不归于任何大公司,是个彻底独立的查找引擎,那就更有意思了。它是怎么开端的,怎么存活下来的,谁是它的用户?
10年现已满意长了,2008年,苹果刚刚发布iPhone 3G,到接近年末,Android的第一个手机,G1到年末才勉强上市,诺基亚依然占控制地位,移动互联网才刚刚有了一点影子。2018年再扭头看回去,简直是个彻底不同的年代。可是在那个年代,查找引擎商场现已成熟了,做一个新的通用查找引擎,听起来现已像个笑话了。要知道,查找引擎商场的最大巨子Google,现已成立了10年,就算是其他言语的查找,中文区最大的百度2000年创立,俄语区最大的yandex比google还早,90年代初就存在了。即便是最年青的中文查找引擎搜狗,也成立于更早的2004年,2006年搜狗现已靠着拼音输入法有了自己的一席之地。到了2008年,没人再想应战这个商场了。
2008年的干流看法是:做一个通用查找引擎是不或许了,一方面是竞争对手过于强大,全是上市公司,都非常有钱,都有忠实用户或者各种壁垒形成的基本垄断,别的一方面是查找引擎体系耗资巨大,一般以为要融到一笔不小的出资才干开端。2007年后半年,金融商场就笼罩在“金融危机快来了”的恐惧中,2008年下半年金融危机总算爆发。在那个商场情况下,更没有出资人会投一大笔钱在这种“一看就没戏”的项目上。
不过国际上总有一些破例。Duckduckgo便是这种破例的产品。(为了缩短点篇幅下面运用其官方简称ddg)
Gabriel Weinberg并不是创业新兵。在开端ddg项目之前,他开过不少家公司,做了好几个产品,其间一个算是成功,以1000万美金的价格被别的一家公司并购,其他的都失败了。卖掉公司之后,他期望下一个产品做一个自己喜爱的方向,能够一向做下去。什么是自己喜爱的呢?他自己也不知道,所以爽性一个范畴一个范畴做起来试试看,不喜爱就放弃。就这样又试了将近两年,终究他走到了查找引擎这条路上。
此刻现已到了2008年,如前所述,那绝对不是一个做查找引擎的好年代。我清楚的知道这些,因为其时我也在做查找引擎,只不过咱们是在做一个查找云服务体系,不是通用查找。即便这样也适当不容易,这是别的的故事,有时机再讲。
Gabriel决议一个人开端做一个查找引擎。依照Google这种“索引全球信息”的形式做,那当然不或许,依照那种形式,他自己卖掉上家公司的1000万美元都扔进去也未必够启动项目。所以他决议从一个简略的形式开端,即运用供给查找API的产品,聚合他们的站内查找成果,重新排序出现到一个页面上。严格来说这算不上一个真实的查找引擎,这种做法局限性很大,除了内容源有限之外,从每个服务API拿回数据拼接页面的进程很慢,产品体会也欠好。不过它总算是个开端,之后他开端用一系列开源软件搭建自己的爬虫体系,树立自己的索引,不再单纯依靠别人的查找成果拼接。这个进程并不是那么杂乱,开源工具Apache Solr就能很好的满意需求。尤其是ddg只面向英文商场,没有查找分词的困难,又只面对有限的查找源,不会遇到索引量大规模膨胀的问题,总体出资可控。这时分的ddg像是一个简略开源软件拼接起来的工具,它需要许多人力去精心分配各种成果,收集各种查找源,至于查找技能自身,在这个阶段彻底不做任何修改的开源软件都满意用了。
除了查找页面,ddg还在力推Instant Answers这个概念,它指的是在查找成果页面上直接显现答案。Google早在2007年就开端推行查找产品onebox,开端在标准查找成果页面上展现一些专有内容,比方电影,书本,购物等等。今日这些都现已是我们都熟知的查找特性了,可是在10年前,这依然是一个新概念。怎么精确的射中用户查找成果,在onebox中展现,这需要杂乱的算法和很多历史查找数据做为基础,无论在数据积累仍是技能上,这都是一个应战。ddg的做法比较Google有点可笑,它爽性抓了一堆常用的内容和关键词,直接存到了数据库里面。这种处理方案和他们处理查找自身相同,它不能称之为一个查找引擎,可是勉强能用。
2008年9月,ddg正式发布。做为其时第一批用户的我,用过之后的感触是:“这玩意也能用?”然后默默关掉了窗口。虽然在hacker news的评论上,创始人Gabriel一次又一次的表明“你坚持用一周,肯定会喜爱它”。我不知道那个时分什么人会坚持用一周,至少我是没能坚持下去。
不过Gabriel却是不在乎我们没能坚持用下去,他依然继续优化他的产品。虽然他走的和Google是彻底相反的道路。Google的做法是首先订好算法和结构,然后尽或许让机器去干活。比方,Google一开端就确定了根据链接联系来确定页面权重的形式,设计好Pagerank算法,再实现算法,之后便是程序依照算法顺着页面之间的链接联系一层层把内容抓回来,树立索引,用户输入关键词,就在索引中射中关键词,依照Pagerank算法排序,把成果出现给用户即可。这个进程中人是不参与的,人的作业会集在优化算法和修补缝隙上。Google一向在骄傲于“算法决议查找成果,人不干涉它”。
ddg走的是彻底相反的道路,人挑选内容源,人决议哪些更重要,应该放在数据库里,乃至社区能够奉献内容,奉献Instant Answers成果…一切都是人在做决议方案,ddg最多的代码是perl和javascript完结的,这足以说明了他们简直不去触碰开源的查找体系中心部分,只是用一系列的脚本把他们以为重要的成果塞到索引库里,以及把一些他们觉得是spam的内容农场从索引库里挪出去。究竟,ddg也从来没有“索引全球信息”这么宏大的愿望。
2009年,ddg提出了一个重要的概念,叫做“尊重隐私的查找”。更技能的表达是“不追寻用户行为,不存储用户查找历史”,这个概念在2009年听起来根本不重要,那仍是一个我们觉得“我酷爱互联网,我乐意出卖隐私”的年代。但之后的这些年里面,国际变得越来越快,到现在它现已变成ddg的中心竞争力之一。
到2010年年末,ddg的每日查找量一向在4万、5万这个数量级别波动,而2009年,Google的每日查找量现已超过了10亿次。2011年1月,Gabriel在旧金山租了一个月的高速公路广告牌,只要一块。上面写着“Google追寻你,咱们不会”。广告牌引发了一轮猎奇的媒体报导,广告效果显着反映在查找量上,使得ddg每日查找量翻倍,开端超过了10万。在那个时分,科技职业从业者中一部分人现已开端思考Google的隐私战略存在的问题,在旧金山这个科技重镇的这块广告牌,影响了这些人。
解读DuckDuckGo:另一个查找引擎的故事 查找引擎 好文同享 第2张
我在这一轮媒体报导之后,重新开端测验ddg。这次它给我的形象不错,我常用的查找,比方github/stackoverflow/wikipedia之类的站点现已被索引的比较彻底了,虽然它的查找规模依然限于有限站点,但现已能够处理一部分问题。这得益于Gabriel在前面2年中的艰苦作业,到这个时分,这仍是一家一个人的公司,只要创始人Gabriel一个人。工作室和服务器依然在Gabriel家的地下室里。
我在这个时分开端把它设置成浏览器的默许查找引擎,我知道它欠好用,可是我期望能给他奉献一点点流量,而且期望这点流量能协助这个产品存在下去,从而能够存在一个选择。这种可代替选择不用在功能上彻底击败竞争对手,只要它能满意超过及格线的运用需求,就比没有好许多。
2011年的年末,坚持不融资的Gabriel总算去给ddg融了第一笔天使出资,雇了第一个职工,在ddg开展的这10年里,这应该是仅有一次融资。不过ddg的真实快速增长的年代,是在之后的两年才逐步开端的。2013年,NSA的外包雇员斯诺登逃到香港,对全国际发布了美国政府正在监控互联网的棱镜方案。人们总算开端第一次有依据的意识到,隐私问题不再是无关紧要的。同样的问题,用隐私换更好的查找质量,在2008年,大部分人会答复“没问题”,但到了斯诺登事件之后,至少有一小部分人会答复“不能接受”。ddg符合了他们的理念,怎么才干不泄漏隐私?只要彻底不存储不用要的隐私数据才干做到。到5年之后的今日,欧盟的GDPR隐私数据保【违规词】现已生效,更多的人认同这个观念。现在逃离Google/Facebook逐步成了新时尚,ddg成了最好的查找引擎代替产品之一,也逐步被各类浏览器内置成默许查找引擎之一。
到今日为止,这依然不是一个“创业企业成功”的故事。到现在ddg只要50个职工,在查找引擎商场拥有简直能够忽略的商场份额,可是它能存活到今日,自身便是一件有意义的工作。
Gabriel在不计划融资的3年半养成的习惯依然主导着这家公司,而且使得它生计的更顽强。一向到今日,ddg的首要服务器现已搬到了amazon云服务上,可是还有不少组件依然躺在Gabriel的地下室里——那些对即时响应要求不高的服务,比方抓取某些数据装进数据库,这样的使命在自家地下室进行,依然比运用云服务廉价的多。公司虽然有50个人,可是他们都散布在国际各地,他们在一张地图上标记出了所有人的方位,简直没有两个人在同一个城市,所有人都是长途工作。这大概是把长途工作贯彻最彻底的互联网公司。
解读DuckDuckGo:另一个查找引擎的故事 查找引擎 好文同享 第3张
它所谓的“总部”,也只是在宾夕法尼亚州的一个小镇主街上的一栋一般房子,而且仍是和别的一家公司同享的。依照我的经历,每月租金不会超过1000美金。如果想要个直观念的形象,能够看看街景相片:
解读DuckDuckGo:另一个查找引擎的故事 查找引擎 好文同享 第4张
除了ddg之外,我猜这个镇上和“科技”最接近的公司,应该是修理手机和电脑的店。至于为什么选中它?我从地图上看,这是间隔创始人Gabriel家最近的小镇,大概有5英里远吧。
这些和其他科技公司彻底不同的离经叛道的行动是有收获的,它使得ddg一向是一家盈余的公司。盈余来源很简略,他们只靠关键词广告即可取得不错的收入。他们没有发布过收入的具体数字,可是估测应该算的上有钱的公司。这些盈余除了能养活几十个职工,付出各种云服务开支之外,ddg每年还对各种开源项目和保护互联网自在的相关组织捐款,2018年他们的总捐款额高达50万美金。Ddg成功把自己放在了一个微妙的方位,它有必定的商场占有率,有越来越多的忠实用户,可是它坚定的隐私战略使得这个商场中的大玩家不或许经过竞争消灭它,也不或许跟随它,更不或许收买它。这个美妙的方位使得它能够依照开始的信仰一向生计下去,不需要融资,不需要为了增长率出卖准则,不需要上市。工作似乎重新回到了“你只需要做好产品,用户天然会来”这个远古年代的路线上。对于2018年正在发作的,比方烧钱无数的同享单车大战,他们好像发作在两个平行国际里。
在互联网现已变成了以本钱游戏为主的年代,ddg的存在给了许多人勇气,使得他们有时机去做一些不同的工作,一些理智看起来毫无胜算的工作。回顾这10年的历史,最困难的应该是创始人Gabriel单独扛下来的最早的3年多。那时分的他就像沿着一条大雾中的公路单独行走,不知道前面有多远,不知道周围有什么,只能看到一辆辆车呼啸而去。没错,他刚刚卖掉公司,有1000万美金,生活不愁。可是大多数取得了这样程度成功的人,会把下一个方针定为“再做一家上市公司”,去融更多的钱,打更狠的仗,而绝对不乐意选一条不知道而孤独的路自己走下去。
在ddg开展起来之后的年初里面,更多的人开端测验做一个“在某种程度上代替Google”的查找体系,比方法国人的qwant,塞浦路斯的searchencrypt,都是相似概念的查找引擎。回到查找自身,做为用了长达7年ddg的用户,我的感触是什么?确切的说,跟着ddg查找规模的扩展,今日用起来现已体会不错了。ddg从2012年供给了一个叫做!bang的功能,在查找词前面加上一个前缀,就能够转向其他查找引擎。比方 “!g 电影” 就会直接跳到Google查找关键词“电影”。“!a switch”,就会跳到amazon.com 查找switch。这个功能很简略,可是有用降低了测验新查找引擎的本钱。每个关键词用户都能够先在ddg查找试试看,对查找成果不满意再转向google。我比较直观的体会是这些年里,我运用!g的比例越来越低了。更有趣的是,Google越来越趋向于根据用户数据,给不同用户展现不同的查找成果,成果是ddg的查找成果总是会和Google的不太相同,能够取得一些在Google查找不到的成果。这使得ddg更有竞争力,它永远能成为google查找成果的有用补充,被运用的价值也就越来越高,2016年美国总统大选之后,人们又把它做为突破“信息同温层”的重要工具。

1558607404216926-lp-lp-lp-lp-lp.jpg

今日和10年前比照,互联网国际发作了天翻地覆的变化,互联网渗透率比10年前高出太多,可是大公司的垄断、本钱的力气也强得多。互联网渗透率高意味着,再小众的需求都能找到满意多的用户,一个保持低本钱运营的团队,靠满意这些用户活下来现已不那么困难。只是本钱会对你毫无爱好。这类工作在商场热火的时分没人想做,人人都有一个上市的愿望。可是当商场进入冬季的时分,这种项目就显得很有吸引力。
看看2008年的纳斯达克指数,对这个说法或许更有感觉。
解读DuckDuckGo:另一个查找引擎的故事 查找引擎 好文同享 第5张
有人说2019年会是未来十年最好的一年,即便如此,对整个国际来说也不必定是坏事,也许又能让咱们多一些选择呢?
提到这种小而有用,能够养活自己生计下去的查找引擎,连一百万人口的塞浦路斯都有,中文区竟然没有这类产品,有点惋惜。我有一位朋友从前想做一个中国的医疗查找引擎。我们都诉苦医疗信息没有牢靠的查找,这显然是个需求。可是前司用竞业禁止官司拖住了这件事,从而使得这个项目长时间没法真实开展。期望他2019年能脱节这些费事,真实把这个产品做出来。