(转载:www.idcew.com) 第一步是从网络上随机获取一个好的链接样本,你可以在这里阅读。但我们假设你已经完成了这一步。然后,对于这些随机链接的任何属性(DA、锚文本等),您将了解什么是正常的或预期的。最后,您寻找异常值,并查看这些异常值是否与某些重要的东西相对应—例如正在操纵链接图的站点,或者特别好的站点。让我们从一个简单的例子开始,链接衰减。
链接衰退和链接垃圾
链接衰退是链接从web上消失或改变url的自然现象。例如,如果您在发送新闻稿后获得链接,您可能会期望其中一些链接最终会随着页面的存档或删除而消失。而且,如果你想从一篇博客文章中获得一个链接,你可能希望在博客上有一个主页链接,直到新文章将这篇文章推到第二或第三页。
但是如果你买了链接呢?如果您拥有大量的域,并且所有的站点都相互链接,该怎么办?如果使用PBN呢?这些联系不会衰退。对你的入站链接进行控制通常意味着你可以让它们永远不会消失。因此,我们可以建立一个简单的假设:
假设:操纵链接图的站点的链接衰减率与使用自然链接配置文件的站点不同。 验证这个假设的方法和我们之前讨论的一样。我们首先要弄清楚什么是自然的。一个随机站点的链接衰减率是什么样的?嗯,我们只是简单地获取一些站点,记录链接被删除的速度(我们访问一个页面,看到一个链接消失了)与它们的链接总数。然后我们可以寻找异常情况。
在这个异常搜索的例子中,我要让它变得非常简单。没有统计,没有数学,只是快速地看一下当我们第一次根据最低的衰减率排序然后根据最高的领域权威排序看看谁在这个范围的末端。
高删除链接率网站的电子表格 成功!我们看到的每一个DA评分良好但链接衰减为0的例子似乎都是由某种链接网络提供的。这是啊哈!《数据科学时刻》非常有趣。特别有趣的是,我们发现垃圾邮件在两端的分布-也就是说,网站有0衰减或接近100%衰减率都倾向于垃圾邮件。第一种类型往往是链接网络的一部分,第二种类型倾向于向他们的反向链接发送垃圾邮件,因此他们的链接会迅速转移到其他页面。
当然,现在我们要做的是构建一个模型,该模型实际考虑到这一点,并根据链接垃圾邮件的严重程度准确地降低域权限。但你可能会问……
这些网站不在谷歌之列——为什么他们一开始就有像样的DAs呢? 这是训练集的一个常见问题。DA在谷歌排名的网站上接受培训,这样我们就可以知道谁的排名会高于谁。然而,从历史上看,我们从来没有考虑过(据我所知,在我们的行业中没有人考虑过)根本没有排名的随机url。这是我们将在3月初发布的DA模型中解决的问题,所以请继续关注,因为这代表了我们计算DA的方式的重大改进! 垃圾邮件得分分配和链接垃圾邮件
即将发布的域权威2.0中最令人兴奋的新功能之一是使用了我们的垃圾邮件评分。Moz的垃圾邮件评分是一个链接盲(我们根本不使用链接)的指标,它预测一个域在谷歌中被索引的可能性。分数越高,网站越糟糕。
现在,我们可以忽略任何垃圾邮件的网站的链接得分超过70,收工,但事实证明有迷人的模式共同留下的链接操作方案等着被发现使用这个简单的方法使用一个随机样本的url来找到一个正常的反向链接配置文件是什么样子,然后看看是否有异常的垃圾邮件分数是分布在一个网站的反向链接。我给你们看一个。 事实证明,表现得自然真的很难。即使是最好的尝试也常常失败,就像这个特别有害的垃圾链接网络一样。这个网络已经困扰了我两年,因为它包含了一个前100万个网站的目录,所以如果你是这些网站中的一个,你可以看到200到600个跟随者链接出现在你的反向链接配置文件中。我称之为“全球”网络。很容易看到网络并看到他们在做什么,但是我们能否自动地发现它,这样我们就可以在将来贬低其他类似的网络?当我们查看网络中包含的站点的链接配置文件时,垃圾邮件得分分布就像圣诞树一样亮了起来。 电子表格与分布的垃圾邮件得分 大多数网站从低垃圾邮件得分域得到他们的大多数反向链接,并得到越来越少的垃圾邮件得分域上升。但是这个链接网络无法隐藏,因为我们可以使用垃圾邮件评分来检测他们网络中的站点是否存在质量问题。如果我们仅仅依赖于忽略垃圾邮件评分链接,我们将永远不会发现这个问题。相反,我们找到了一个很好的分类器,用于查找那些可能因为糟糕的链接构建实践而被谷歌处罚的站点。
DA分发和链接垃圾邮件
我们可以在分布入站域权限的站点之间发现类似的模式。这是常见的企业寻求增加他们的排名,以设置最低质量标准的推广活动,往往DA30以上。这样做的一个不幸结果是,剩下的是一些带有操纵链接配置文件的网站。
我先澄清一下。一个被操纵的链接配置文件不一定违反谷歌的指导方针。如果你做的是有针对性的公关推广,那么可以合理地预期,这样的分布可能会发生,而不会有任何操纵图表的企图。然而,真正的问题是谷歌是否希望执行这种扩展的站点执行得更好。如果不是这样,谷歌可以很容易地抑制这个引人注目的链接操作示例,如果不是完全忽略它的话。
具有域权限分布的电子表格 一个普通的链接图对于一个不是针对高链接权益域的站点来说,它们的大部分链接来自DA0-10站点,DA10-20站点的链接稍少一些,以此类推,直到DA90+几乎没有链接为止。这是有道理的,因为web上的低DA站点远远多于高DA站点。但以上所有站点都存在异常的链路分布,使其易于检测和校正。
现在,我想澄清一下:这些不一定是违反谷歌准则的例子。然而,它们是对链接图的操作。这取决于您是否相信谷歌花了时间来区分导致异常链接分布的扩展是如何进行的。
什么不工作
对于我们发现的每一种链接操作检测方法,我们都废弃了几十种。其中一些实际上是相当令人惊讶的。我来写其中的一个。
第一个令人惊讶的例子是nofollow与follow链接的比例。很明显,评论、论坛和其他类型的垃圾邮件发送者最终会积累大量的nofollow链接,从而留下一个易于识别的模式。事实证明这根本不是真的。
“不关注”和“关注”链接的比例并不是一个很好的指标,因为像facebook.com这样的流行网站的比例甚至比纯粹的垃圾评论网站还要高。这可能是由于widget和信标的使用,以及像facebook.com这样的流行网站在网络评论中的合法使用。当然,情况并不总是如此。有些网站有100%的nofollow链接和大量的根链接域。这些异常,比如“评论垃圾邮件制造者1”,可以很容易地检测到,但是作为一个通用的度量,这个比率并不能作为垃圾邮件或火腿的一个好的分类器。 (转载:www.idcew.com) |