深网(网际网路术语)

基本解释

整个Web看似杂乱无章，但如果按其所蕴涵信息的“深度”可以划分为SurfaceWeb和DeepWeb两大部分。SurfaceWeb是指通过超连结可以被传统搜寻引擎索引到的页面的集合。DeepWeb是指Web中不能被传统的搜寻引擎索引到的那部分内容。广义上来说，DeepWeb的内容主要包含4个方面：(1)通过填写表单形成对后台线上资料库的查询而得到的动态页面；(2)由于缺乏被指向的超连结而没有被搜寻引擎索引到的页面，大约占整个比例的21.3%；(3)需要注册或其它限制才能访问的内容；(4)Web上可访问的非网页档案，比如图片档案、PDF和Word文档等。

而在实际中套用中，人们则更关注于DeepWeb中的第一部分内容。其原因不难理解，这部分内容对结构化数据的集成更有意义，可以採用的技术也更丰富。DeepWeb数据集成也主要是指对结构化信息的集成，我们同时把Web中可访问的线上资料库称为Web资料库或WDB。这些内容只有在被查询时才会由Web伺服器动态生成页面，把结果返回给访问者（图1），因此没有超连结指向这些页面，这是和那些可以被直接访问的静态页面的根本区别。随着Web相关技术的日益成熟和DeepWeb所蕴含信息量的快速增长，通过对web资料库的访问逐渐成为获取信息的主要手段，而对DeepWeb的研究也越来越受到人们的关注。

深网资源

动态内容
未被连结内容
私有网站
Contextual Web
被限制访问内容
脚本化内容
非HTML/文本内容

命名

伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到，吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜寻引擎索引注册的网站。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章：

这些网站可能已经被合理地设计出来了，但是他们却没有被任何搜寻引擎编列索引，以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说，你们是隐藏了的。我称之为隐形网。

早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软体”公司的布鲁斯·芒特和马修·B·科尔，当他们公司在1996年12月推出和发行的一款软体时，他们对深网工具的有过这样的一番描述。

现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中。

深网(网际网路术语)

深网(网际网路术语)

基本介绍

基本解释

深网资源

命名

索引方法