当前位置:主页 > SEO技术 > SEO资讯 >

监管机构极力限制谷歌影响力 搜索引擎背后庞大索引才该受关注

发布时间:2020-12-16 10:44   浏览次数:次   作者:admin

  12月15日,2000年刚刚成立两年时,谷歌就达到了一个里程碑,并为其在未来20年占据主导地位奠定了基础。当时,谷歌成为世界上最大的搜索引擎,拥有超过10亿个网页的索引。随着时间推移,谷歌的网页索引变得越来越庞大。据估计,其如今可以检索的网页数量在5000亿到6000亿个之间。

  现在,世界各地的监管机构都在研究如何遏制谷歌的权力,包括预计最早将于本周由多州总检察长提起的搜索垄断案,以及司法部在10月份提起的反垄断诉讼。这些监管部门正在与一家规模庞大的公司对阵,其规模已经完全压制了竞争对手。在反击中,这些竞争对手正将调查人员的焦点引向了谷歌搜索庞大的索引。

  大约20年前创办搜索引擎Gigablast马特·威尔斯(Matt Wells)说:“如果人们使用索引较小的搜索引擎,他们不会总是得到想要的结果,然后他们就会去谷歌,并留在那里。像我这样的小公司,根本无法与谷歌竞争。”Gigablast大约可以检索50亿个网页。

  了解谷歌的搜索是如何运作的,这是弄清楚为何这么多公司发现几乎无法与之竞争的关键。事实上,他们会不遗余力地迎合谷歌的需求。每次搜索请求都会为谷歌提供更多数据,使其搜索算法更加智能化。谷歌上的搜索次数比其他任何同类服务都多,因此在了解消费者的需求方面,它比竞争对手拥有巨大的优势。这一领先优势只会继续扩大,因为谷歌所占市场份额约为90%。

  谷歌将数十亿用户引导到互联网上的各个位置,而渴望获得这些流量的网站则为该公司制定了不同的规则。网站经常提供对谷歌所谓“网络爬虫”(自动搜索互联网并扫描网页的计算机)的更大、更频繁的访问支持,使该公司能够提供关于互联网上可用内容的更广泛、更新的索引。

  软件工程师扎克·马里尔(Zack Maril)在音乐网站BandCamp工作时,开始担心谷歌的主导地位会对其造成何种影响。2018年,当谷歌称其爬虫程序谷歌机器人(Googlebot)在BandCamp的一个页面上出现问题时,马里尔把解决这个问题作为当务之急,因为谷歌对该网站的流量至关重要。当其他爬虫遇到问题时,BandCamp通常会阻止它们。

  马里尔继续研究网站为谷歌打开大门和关闭大门的不同方式。去年,他向美国众议院反垄断小组委员会发送了长达20页的报告《理解谷歌》,然后与调查人员会面,解释为什么其他公司不能重建谷歌的索引。马里尔说:“这在很大程度上是其垄断地位不受约束的权力来源。”

监管机构极力限制谷歌影响力 搜索引擎背后庞大索引才该受关注
软件工程师马里尔向调查人员解释称,谷歌的索引赋予了它非常强大的功能

  美国众议院今年公布的报告引用了马里尔的研究,他详细阐述了谷歌创建互联网实时地图的努力以及如何“锁定其主导地位”。虽然美国司法部正在寻求解除谷歌的商业交易,这些交易将谷歌的搜索引擎置于数十亿部智能手机和电脑的前沿,但马里尔敦促政府干预和监管谷歌的索引。谷歌发言人拒绝置评。

  网站和搜索引擎是共生的:网站的流量依赖于搜索引擎,而搜索引擎需要访问网站才能为用户提供相关结果。但每个网络爬虫都会在服务器和带宽成本上给网站的资源带来压力,有些激进的爬虫类甚至可能存在导致网站瘫痪的安全风险。由于抓取网页需要付费,网站更希望只让有足够流量的搜索引擎来做这件事。在目前的搜索领域,这就剩下了谷歌。在某些情况下,还有微软的必应。

  谷歌和微软是仅有的两家每年花费数亿美元来维护英文互联网实时地图的搜索引擎。英国竞争和市场管理局今年夏天的报告称,这还不包括他们多年来为建立索引而花费的数十亿美元。谷歌在市场份额上明显领先于微软必应。英国竞争主管部门表示,谷歌的索引包括大约5000亿至6000亿个网页,相比之下,微软检索的网页约为1000亿至2000亿个。

  其他大型科技公司将网络爬虫用于其他目的。Facebook有个爬虫程序,可以搜索出现在其网站或服务上的链接。亚马逊表示,其爬虫程序有助于改进其基于语音的智能助手Alexa。苹果有自己的爬虫程序Applebot,这引发了人们的猜测,即苹果可能正在寻求建立自己的搜索引擎。

  但对于没有雄厚财力的公司来说,检索网页始终是个挑战。注重保护隐私的搜索引擎DuckDuckGo在十多年前就决定停止在整个网络上检索,现在从微软那里获取搜索结果。DuckDuckGo仍然会检索维基百科等网站,为答案框提供结果,但维持自己的索引通常对公司来说没有财务意义。

监管机构极力限制谷歌影响力 搜索引擎背后庞大索引才该受关注
DuckDuckGo首席执行官加布里埃尔·温伯格表示,维护单独的索引成本超出了其承受能力

  DuckDuckGo首席执行官加布里埃尔·温伯格(Gabriel Weinberg)表示:“维护单独索引的成本超出了我们的承受能力。”在去年提交给众议院反垄断小组委员会的一份书面声明中,该公司表示,如今以及在可预见的未来,“雄心勃勃的搜索引擎初创企业不可避免地需要”向微软或谷歌寻求搜索结果。

  2015年,当FindX开始开发谷歌的替代品时,这家丹麦公司开始创建自己的索引,并提供了一种自己构建的算法来提供个性化结果。然而,FindX很快就遇到了问题。大型网站运营商,如Yelp和LinkedIn,不允许羽翼未丰的搜索引擎检索他们的网站。由于其代码中存在漏洞,FindX在互联网上检索的计算机被标记为安全风险,并被许多基础设施提供商屏蔽。他们收集的网页经常是垃圾网页或恶意网页。

  FindX于2018年关闭,其联合创始人布莱恩·斯乔特·劳尔森(Brian Sschilt Laursen)说:“建立索引是最难做的事情。”劳尔森去年推出了新的搜索引擎Givero,用户可以选择将公司收入的一部分捐给慈善事业。当他创办Givero时,整合了微软的搜索结果。

  多数大型网站对于谁可以检索他们的页面都很谨慎。一般而言,谷歌和微软获得更多访问权限是因为它们拥有更多用户,而规模较小的搜索引擎则需要请求许可。德国搜索引擎Cliqz联席首席执行官马克·哈姆斯(Marc Al-Hames)说:“你需要流量来说服网站允许你复制和检索其网页,但你也需要内容来扩大你的索引并拉动流量。”在运营了七年之后,Cliqz于今年关闭。

监管机构极力限制谷歌影响力 搜索引擎背后庞大索引才该受关注
马里尔展示了他研究网页检索的网站

  在欧洲,名为开放搜索基金会(Open Search Foundation)的组织提出了一项计划,旨在创建一个能够支撑许多欧洲搜索引擎的通用互联网索引。该组织董事长兼创始人斯特凡·福格特(Stefan Voigt)表示,拥有多样化的搜索结果选项至关重要,因为只有少数几家公司才能决定用户显示和不显示哪些链接。

  Science Direct是个同行评议论文的网站,它只允许谷歌的爬虫访问包含PDF文档的链接。只有谷歌的电脑才能访问PBS Kids上的列表。在阿里巴巴的美国网站上,也只有谷歌的爬虫才能访问列出产品的页面。

  今年,马里尔创办了名为“傻瓜俱乐部”的组织,并推出了一个网站,以提高人们对谷歌网页检索垄断地位的认识。他说:“谷歌在社会上拥有如此强大的影响力,我认为应该对这一权力进行控制。”