深网(英语:Deep Web,又称、不可见网、隐藏网)是指网际网路上那些不能被标準搜寻引擎索引的非表面网路内容。
麦可·伯格曼将当今网际网路上的搜寻服务比喻为像在地球的海洋表面的拉起一个大网的搜寻,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜寻引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标準的搜寻引擎却无法对其进行查找。传统的搜寻引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表面网站大几个数量级(仅作估计,无学术依据)。
基本介绍
- 中文名:深网
- 外文名:Deep Web
- 别称:不可见网、隐藏网
- 意义:不能被标準搜寻引擎索引的内容
- 对比:表网
- 领域:计算机
基本解释
整个Web看似杂乱无章,但如果按其所蕴涵信息的“深度”可以划分为SurfaceWeb和DeepWeb两大部分。SurfaceWeb是指通过超连结可以被传统搜寻引擎索引到的页面的集合。DeepWeb是指Web中不能被传统的搜寻引擎索引到的那部分内容。广义上来说,DeepWeb的内容主要包含4个方面:(1)通过填写表单形成对后台线上资料库的查询而得到的动态页面;(2)由于缺乏被指向的超连结而没有被搜寻引擎索引到的页面,大约占整个比例的21.3%;(3)需要注册或其它限制才能访问的内容;(4)Web上可访问的非网页档案,比如图片档案、PDF和Word文档等。
而在实际中套用中,人们则更关注于DeepWeb中的第一部分内容。其原因不难理解,这部分内容对结构化数据的集成更有意义,可以採用的技术也更丰富。DeepWeb数据集成也主要是指对结构化信息的集成,我们同时把Web中可访问的线上资料库称为Web资料库或WDB。这些内容只有在被查询时才会由Web伺服器动态生成页面,把结果返回给访问者(图1),因此没有超连结指向这些页面,这是和那些可以被直接访问的静态页面的根本区别。随着Web相关技术的日益成熟和DeepWeb所蕴含信息量的快速增长,通过对web资料库的访问逐渐成为获取信息的主要手段,而对DeepWeb的研究也越来越受到人们的关注。
深网资源
- 动态内容
- 未被连结内容
- 私有网站
- Contextual Web
- 被限制访问内容
- 脚本化内容
- 非HTML/文本内容
命名
伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜寻引擎索引注册的网站。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章:
这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜寻引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。
早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软体”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软体时,他们对深网工具的有过这样的一番描述。
现在普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中。
索引方法
研究人员探寻了如何自动抓取深网内容。
2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亚·莫利纳(Hector Garcia-Molina)发明了一个从用户请求界面表格收集关键字的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程式。
商业搜寻引擎已经开始使用以上两种方法之一抓取深网。Sitemap协定(由Google于2005年首次开发并由Google引入)和mod oai是允许搜寻引擎和其他网路服务探索深网解决方法。以上两种解决方法允许网路服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网路表面的连结。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜寻引擎索引。在这个系统里,使用三种方法计算提交词:
- 为输入搜寻选择关键字允许的输入值,
- 确定是否只接受特定的值(例如时间),以及
- 选择少量的组合生成适合纳入网站的搜寻索引网址。