|通用信息安全| 2022年4月28日

镜子,墙上的镜子,谁是最美丽的人(网站)?

在互联网的。com时代,一家名为Alexa的公司开始收集用户访问网站的统计数据,他乐动体育官网下载们在浏览器中安装了一个插件。作为该集合的一部分,Alexa将这些数据汇总成互联网上“前100万个”网站的集合——他们的插件用户请求最多的域名。然后,他们将该列表提供给互联网社区使用。

因为它是可用的,尤其是因为它是可用的免费的,“Alexa前百万这个列表在互联网上被广泛使用。在安全领域,进入Alexa前百万榜单通常被用来代表一个域名是否应该被视为默认“安全”。

背后的原因通常是这样的:

  • 如果一个域名在Alexa前百万排名很高,那么
  • 这个域名必须非常流行(即使你个人没有听说过)
  • 如果域名很受欢迎,屏蔽它可能会导致大量的投诉
  • 安全工程师在阻止他们的组织访问它之前应该“三思而后行”。

DomainTools曾经在Iris中提供了一个域名的Alexa排名作为一个指标,帮助调查人员自己进行这种计算。

的冲突

亚马逊旗下的Alexa宣布,他们将从2022年5月1日起停止Alexa前百万榜单。这让我们有点为难:我们要继续使用“冻结”/过时的列表吗?我们要换别人的名单吗?我们会完全放弃Alexa排名吗?或者我们尝试在互联网上生成我们自己的顶级域名排名?

我们选择了最后一个选择:生成我们自己的。我们最近收购了远见安全公司它的DNSDB中有大量关于DNS请求的信息,所以我们有信心可以构建一个很好的替代品。

当然,这从来没有那么容易。

“前100万”到底是什么意思?

当我们开始研究是否生成我们自己的列表时,我们遇到了一个基本问题:前100万个域名依据什么标准?这个问题有很多答案,每个答案都有一个有趣的偏向:

  • 域名用户在浏览器中请求-这是最初Alexa列表的重点,Netcraft仍然在跟踪。直接从用户的浏览器收集信息是了解用户兴趣的好方法浏览器.这是Alexa最初的业务重点。然而,互联网上有很多流量并不涉及网络浏览器。以浏览器为中心查看前100万个域名可能会遗漏补丁镜像、内容交付网络(cdn)、DNS解析器和其他重要的互联网基础设施,但这些对用户的日常浏览是透明的。
  • 用户系统在DNS中请求的域:这是思科/Umbrella百万富豪榜所追踪的。它们收集并聚合到OpenDNS解析器的DNS查询,以创建伞形Top Million。这些数据包括cdn和其他一些互联网基础设施,如果您想了解面向互联网的用户流量范围,这是对基于浏览器的方法的改进。但是,它仍然是以用户为中心的,所以除非一个组织将其整个组织的DNS指向OpenDNS服务器,否则将不会看到与服务器相关的东西,如补丁镜像。它也有一点偏见,因为它只能看到来自那些选择将DNS指向非默认解析器的用户的流量,所以这些流量中显示的用户行为可能并不能真实反映一般互联网的趋势——这是来自一个独特的自我选择的用户组的数据。
  • 在整个组织的DNS请求中看到的域-这类似于Cisco/Umbrella的OpenDNS数据,但不依赖于用户将其DNS指向特定的解析器。相反,它依赖于用户的组织/ISP共享该组织通过第三方聚合器发送到互联网的DNS查询。这是远见安全公司的DNSDB数据集。这与OpenDNS数据集相比有一个优势,即此数据集中的用户遵循其组织或ISP的默认行为,并且服务器DNS流量也将在此数据集中。不过,这与Cisco/Umbrella数据集有类似的限制——它仍然偏向于选择与远见安全共享数据的组织。此外,由于这只看到将前往互联网的流量,如果该组织的名称服务器已经缓存了一个域,则该请求将不会在此提要中看到。
  • 域名通过彼此之间的连接来评分到目前为止,我们只讨论了面向用户的列表。用户请求跟踪方法存在一个限制,即用户需要在站点出现在列表中之前访问该站点。例如,一个网站可能很重要,但很少有人访问,这不会反映在依赖用户流量的评级中。不要依赖于用户请求,你可以看看网站如何相互链接来识别受欢迎的网站。这就是谷歌的PageRank算法如何识别在搜索中返回的重要域。DomCop和Majestic Million域名列表遵循类似pagerank的方法。这种方法的优点是不需要用户对他们将来可能想要访问的任何网站都了如指掌,但缺点是很容易受到垃圾邮件发送者的攻击。

有这么多选择,该选哪个呢?从我们的观点来看,最好的答案是“以上都是”。

进入Tranco

我们不是第一个思考这个问题的人。2019年,一组研究人员研究了为研究目的建立顶级域名列表,以及确定这类列表的问题(流失,错误分类一个流行但恶意的域名等)。他们的论文分析了各种“顶级域名”列表之间以及与Alexa之间的重叠,并得出结论,组合方法最适合他们的目的。我们同意,并认为它也很适合我们的。

他们提出的方法使用一个域在每个列表中的位置来为每个域生成一个“分数”,然后从每个列表中取分数的平均值来生成一个域在最终列表中的位置。(实际上比这要复杂一点,但这是核心思想。)这种平均的实际效果是,从一个或多个列表中缺失的域将在最终列表中被下推,因为它们将从不具有该域的列表中获得“0”票。相反,在所有列表中的域将被向上推。这将奖励那些在所有收集类型中一致出现的域,我们认为这是一件好事——一个在多种抽样方法中排名很高的域可能是合理流行的。

研究人员已经建立了一个网站,可以自动组合多个列表,理论上我们可以使用他们的列表。我们选择不这样做,主要是因为我们想掌握自己的命运。我们将与Tranco团队合作,但在Iris中出现的实际列表将由DomainTools内部生成。

本土流行

决定自己构建列表后,下一个问题变成:我们使用哪些数据源?我们已经知道我们想要使用Farsight Security数据集,并且我们想要对多个其他数据集进行平均,以试图解决数据中的盲点,但是我们要对Farsight Security数据集进行平均呢?在做这个决定时,我们想要得到一个混合的抽样方法,以确保我们得到一个很好的横截面,以不同的方式来看待这个问题。我们还需要考虑每个数据集的许可条款,以确保允许我们使用它们。最后,我们选择了4个数据集作为我们的“顶级”列表:

  • 雄伟的百万-这是一个类似pagerrank的100万个域名列表,在集体共用/归属许可(CC-BY)下定期更新。
  • 思科/Umbrella公司的前100万-这是一个用户系统dns请求列表,由思科“免费”发布。
  • Netcraft topsites排名前100Netcraft运行了一个浏览器插件,可以收集与Alexa相同的数据。然而,他们不提供排名前100万的网站,只提供排名前100的网站。他们的数据提供许可,允许重新发布如果Netcraft是归属
  • Farsight Security的被动DNS数据-这也是一个被动DNS列表,但更多的是按组织而不是按个人用户。我们肯定有使用这些信息的许可,因为远见安全现在是DomainTools的一部分。

我们认为这种列表的组合是一种很好的、广泛的抽样方法的组合,而Tranco平均方法为我们提供了一种将它们收集在一起的好方法。

你为什么要在意?

到今年第二季度末,DomainTools将改变我们的API和Iris中显示的排名分数,以使用这个新生成的排名。这对我们的客户来说意味着什么?实际上,它的意思是:

  1. 虹膜中的“Alexa”列将被“Rank”列取代。该列将包含域名的受欢迎程度排名根据这个新的列表。
  2. Iris API将为响应添加一个新的属性,也称为“rank”。我们将暂时保留“alexa”属性,但我们预计将在2022年底之前删除“alexa”属性。

如果你正在使用虹膜API,并且在这些查询中使用Alexa排名字段,我们建议你尽快转移到新的“排名”字段。除此之外,我们预计用户体验不会有任何其他变化。我们有信心,这个榜单产生的数据将是相当稳定的,并将成为Alexa前百万榜单的透明替代品。

加入超过30,000名安全专业人员

订阅DomainTools每月通讯,接收创新,实用的建议,以改善他们的安全态势。我们的目标是帮助组织在其组织的日常防御中变得更高效、更有知识和更积极主动。

视图DomainTools”隐私政策