• 摘要:暗网是指那些不属于那些可以被标准搜索引擎索引的表面网络。

      暗网(不可见网,隐藏网,英文称作Hidden Web)是指那些储存在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。

      暗网是深网(Deep Web)的一个子集,属于深网的一小部分。据估计,暗网比表面网站大几个数量级。

      迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。

      所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。2001年,Christ Sherman、GaryPrice对Hidden Web定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息。

      关于暗网,还有以下事实:

      Hidden Web大约有307,000个站点,450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长,从2000年到2004年,它增长了3~7倍。

      Hidden Web内容分布于多种不同的主题领域,电子商务是主要的驱动力量,但非商业领域相对占更大比重。

      当今的爬虫并非完全爬行不到Hidden Web后台数据库内,一些主要的搜索引擎已经覆盖Hidden Web大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在技术上的本质缺陷。

      Hidden Web中的后台数据库大多是结构化的,其中结构化的是非结构化的3.4倍之多。

      虽然一些Hidden Web目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%~15.6%。

      Web数据库往往位于站点浅层,多达94%的Web数据库可以在站点前3层发现。

    文章来源:金色财经

    原始标题:什么是暗网?

    原始作者:金色财经

    声明:本内容系陨石财经编辑转载,版权归原作者所有,转载目的在于传递更多信息,并不代表陨石财经赞同其观点和对其真实性负责。如涉及作品内容、版权和其他问题,请在30日内与陨石财经联系,我们将第一时间删除内容。

提交成功!

提交失败