全球搜索引擎大全
当前位置当前位置:全球搜索引擎大全 > 资讯 > 文章

搜索引擎谷歌GOOGLE为什么没死?

  日期:2019-03-02
前不久,一篇题为《搜索引擎百度已死》的自媒体文章火爆网络,朋友圈刷屏无数。在这篇文章中指出,百度搜索结果中一半以上都会指向百度自家产品,引发了大众对于百度搜索质量的讨论与争议。

2010年1月13日消息,Google公司已经决定,不愿再审查Google.cn上的搜索结果,Google将在未来几周时间和中国政府谈判,要求能够在中国法律框架内运营未经过滤审查的搜索引擎。北京时间2010年3月23日凌晨3时零3分,借黑客攻击问题指责中国,宣布停止对谷歌中国搜索服务的“过滤审查”,并将搜索服务由中国内地转至中国香港。停止了中国内地的搜索服务,但是仍然有很多G米们通过翻墙等方法使用谷歌搜索引擎。

在如今互联网时代下,搜索引擎作为重要入口,起到重要作用。当通过 Google 搜索 “中国 2019 年 GDP” 时,你会发现,其搜索结果与百度截然不同。这时,你就会有疑问,Google 是怎么做到如此不同的搜索结果?而“搜索引擎”这门生意到了 Google 手上,是如何被做“活”的。

Google 诞生于 1996 年 1 月,当时作为加州斯坦福大学理学博士生的两位少年,Larry Page (拉里·佩奇)和 Sergey Brin(谢尔盖·布林)在研究一项关于搜索的项目,最后,两人共同开发了一个对网站之间的关系做精确分析的搜索引擎,两人将其命名为 “BackRub”,后来更改为 Google。

在 Google 搜索诞生的背后,其实是基于一个名叫 PageRank 的网页排名算法运行的。

1998 年,创始人 Larry Page 和 Sergey Brin 在一篇学术论文中解释了 PageRank 的核心理念。其中提到,搜索结果来源于一种基于图论的数学算法,它将万维网上所有的网页视作节点(node),而将超链接视作边(edge),每个节点的权重值表示对应的页面的重要度。如果一个网页被很多其他网页所链接,算法会自动识别到,该链接可能受到大众的承认和依赖,那么它在 Google 搜索结果的排名就高。

早期,Google 将这种算法用于评估指向网页的链接的质量和数量。得分从 0 至 10,在 Google 工具栏中显示。

按照 Google 官方说法,PageRank 本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页重要性的算法。用户需要的是答案,而不是数十亿个网页,因此, Google 排名系统会对 Google 搜索索引中的数千亿个网页进行筛选,以提供实用且相关的结果。

有趣的是,PageRank 算法是以谷歌公司创始人之一的拉里·佩奇(Larry Page)的名字來命名,并不意为网页之意,此 Page 非彼 Page,所以 PageRank  又称为佩奇排名。
PageRank 算法被认为是互联网搜索引擎算法鼻祖,也是非常公平地网页排名技术,成为互联网算法基石。

虽然,PageRank 算法是 Google 创始人开发,也属于 Google 的商标,其技术亦已经申请专利,但是专利权归属于斯坦福大学,而非 Google 公司。

最初,PageRank 对外公开至 Google 工具栏当中,并将这些分数公开。直到 2016 年 4 月 15 日, Google 公司停止向公众开放 PageRank 数据,停止评分,并将 Google 工具栏移除。其背后的原因,其实是这种排名算法存在一些缺点和矛盾,并不是十全十美的。

具体来说,PageRank 算法存在 “旧的页面的排名往往会比新页面高” 这种现象,因为即使是质量很高的新页面,往往不会有很多外链,除非它是某个已经存在站点的子站点。这也是 PageRank 需要多项算法结合以保证其结果准确性的主要原因。

例如,PageRank 似乎偏好百科、知乎等页面,在条目名称的搜索结果中,这类页面经常出现在第一页,甚至在所有页面当中的首位,导致此现象的主要原因,是这种网页中存在大量的内链,同时也有很多站点链入该链接,Google 搜索会判定该链接是优质的,可以给予更高的结果排名。

所以,这种排名算法也伴随着一些恶意行为,有一些不正常的链接运营者通过刷新、代码刷链接等方式,干扰 Google 的搜索结果算法。

目前,Google 已经做了相关规定,处罚恶意行为。至于其如何区分正常的链接和不正常的链接,这仍然是商业机密。但是在 Google 的链接规范中已清楚地说明,哪些是属于违反规范的行为。

与此同时,Google 推出了 Google Ads 广告服务,使用该服务,会干预 PageRank 算法的排名。这两个原因,导致该算法迅速停止对外公开。
非常可惜,PageRank 并没有在 Google 搜索中完全实现,Google 干预搜索排名的决定,也引发了现任总统特朗普不满。去年 8 月 28 日,美国总统特朗普在 Twitter 上发文指责 Google 公司操纵 “Trump News” 搜索结果,特意隐藏正面报道,只显示了“假”新闻的媒体报道(负面新闻)。
即便如此,这些问题都不会妨碍 Google 搜索仍是目前最好用的搜索引擎。或许,对于特朗普来说,Google 新闻信息流算法才是最糟糕的,也是他永远无法琢磨明白的。

这是一款叫 Google Discover 的信息流产品。

目前,Google 在其搜索引擎首页、Google 和 Chrome App 首页中加入了该产品。从视觉上,看起来好像与百度 Wap 首页信息流类似,也包含图文、视频、天气等媒介内容。

但是,百家新闻本身是内容平台,信息流是基于百度号内容服务形成的;Google 却不一样,它不做内容平台,Google News 只是一款 Web 新闻聚合器,都是官方的链接,只是专制到 Google 的链接而已,也就是说,Google 只是做了一个索引,整个网页还是基于原链接形成的,有点类似于 Safari 中的阅读模式。

Google 新闻的首页更新和新闻推荐都不依赖于人工操作,全部由后台的聚合算法实现。

在实现之前,需要创建索引,这是个巨大工程,Google 新闻每天都会收集和展示从全球数千个新闻来源的头条新闻,并对网址进行解析和处理,形成一个对应的解析器程序,再通过算法分析,搜索引擎点击率等行为活动进行判断,该网页内容是否加权到新闻首页推荐,形成了一个基于算法技术的新闻聚合平台。

自 2002 年推出以来,Google News 已成为 Web 上最大的新闻内容聚合器。

关于新闻信息流算法和索引来源,Computerworld 在 2012 年的一篇文章中指出,Google 公司曾提交了一份专利,从算法上索引信息来源,其中包括新闻网站定期产生的新闻数量、新闻来源的平均长度、新闻来源新闻报道的重要性、突发新闻得分、使用模式、舆论意见、流通量、相关新闻组织的员工数量、新闻来源的办事处数量、新闻报道的广度、新闻中使用的原创命名实体的数量、国际多样性、甚至还包括写作风格等规则,都进行了详细解释。

以下就是部分算法规则:

用原创文章数或原创句子数来衡量新闻来源的质量。
用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。
突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的。
而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量来衡量。

虽然说 Google News 算法已接近完美,但是,这类产品涉及首页引导行为、隐私操作算法等,2017 年 7 月,被欧盟开出 27 亿美元的天价罚单。负责调查 Google 垄断案件,欧洲竞争事务专员 Margrethe Vestager 表示,当用户在 Google 搜索上搜索产品时, Google 搜索结果会优先显示 Google 的产品和服务,按照欧盟反垄断规则,谷歌所做的事情是非法的。
在这种情况下,外媒指 Google 可能会关闭欧洲的 Google 新闻信息流。
在 Google 搜索结果中,最重要的就是 SEO,也就是搜索引擎优化。如果你想让用户发现你的网站、产品、内容等,那么你必须要做这个步骤。

SEO,简单来说,就是在不付费的情况下,对网站在搜索引擎中的可见性进行优化的过程。

不管是百度,还是 Google,又或者是 360、搜狗、Bing 必应等搜索引擎,通通都会用到 SEO。
但是,目前各大搜索引擎都将自家旗下产品放到搜索结果最前面。比如说百度,正如方可成的《搜索引擎百度已死》文章所言,百家号占据搜索结果第一页的大部分位置。而 Google 搜索,是将旗下的 Google News、YouTube、Google 相册等相关结果呈现在第一页,这也是欧盟罚款的主要原因。

很多人有疑问,这些结果是怎么排到首页的呢?你是如何可以做到的?

首先我们要知道一个事实,为什么大家要这么在意网页是不是在 Google 的第一名。

其实很简单,流量>人潮>交易>利润。当你的排名高时,你的流量自然就会高,而且这些流量还是非常真实有效的。

但必须要承认一个事实,任何网页都不能持续在 Google 搜索结果的第一名,这没有人能够办到。并不是说第一名的宝座是被内定,因为 Google 会不断调整排名,你不能保证自己的第一名可以持续多久。

即使在第一名也会改变,但是我们仍可以通过某些办法来达到。

比如说企业通过注册并使用 Google 的服务,与 Google 进行长期合作,在 Google News 上进行推荐、分享到社交平台,在 YouTube 等视频平台发布内容等,都会让你的词条在搜索结果排名中靠前。

不管怎么做,想要排名,最终你都要通过 Google 的流量、付费给谷歌等方式得到。
正如上文所言,Google 是为了干预搜索算法,推出这种商业模式,也就是 Google Ads,这是在 2000 年建立的一项广告服务业务。

相比百度的竞价广告排名,Google 提出了一种计算方式,这种计算方式并不是谁出价最高,谁就排最前,而是有一套完善的算法所把持,即 Google 广告排名=最高点击成本 × 广告质量得分。

在 AdWords Policies 帮助页面,有专门的政策与步骤,其中包括了禁止的内容与行为、技术与标准等。

通过 PageRank 佩奇算法,让 Google 搜索更加智能,更加公平;通过 Google Ads 这种竞价排名方式,让整个商业模式能够建立到现在。在商业利益面前,这就是所谓的平衡之道。
正如 Google 在十大信条中写道的那样:以用户为中心,其他一切自然水到渠成。这就是为什么google退出中国市场后为什么没死?
参考消息:
Google 的链接规范:
https://support.google.com/webmasters/answer/66356?hl=zh-Hans
算法论文:
https://web.stanford.edu/class/cs54n/handouts/24-GooglePageRankAlgorithm.pdf
Computerworld:
https://www.computerworld.com/article/2495365/business-intelligence/an-inside-look-at-google-s-news-ranking-algorithm.html
谷歌十大信条:https://www.google.com/intl/zh-CN/about/philosophy.html


最新文章
热门文章

Copyright 2020 by 我的系统园地 .All rights reserved.
内容均来自互联网.若涉及您的权益.请联系删除
联系我们 | 申请收录
蜀ICP备18032328号