深层网络爬虫研究综述

webcookie

贡献于2015-02-06

字数:0 关键词: 网络爬虫

计 算 机 系 统 应 用 2008 年 第 5 期 深 层 网 络 爬 虫 研 究 综 述① S u rv e y o n th e R e s e a rc h o f D e e p W e b C ra w le r 曾伟辉 李 淼 ( 中国科 学院合肥智 能机械研究所 安徽合肥 230031) 曾伟辉 ( 中国科 学技术大学 自动化 系 安徽合肥 230027 ) 摘 要 :随 着 Internet 的迅速 发展 ,网络 资 源越 来越 丰 富 ,人 们 如何 从 网络上 抽 取 信 息也 变得 至 关重 要 ,尤 其是 占网络 资源 80 % 的 D ee p W e b 信 息检 索更是 人 们应 该倍 加 关 注 的难 点 问题 。 为 了更 好 的研 究 Deep W eb 爬 虫技 术 ,本 文 对 有 关 Deep W eb 爬 虫 的 内容 进 行 了全 面 、详 细 地 介 绍 。首 先 对 D ee p W eb 爬 虫的定 义及研 究 目标 进行 了阐述 ,接 着介 绍 了近 年 来 国 内外 关 于 D ee p W e b 爬 虫 的 研 究进 展 ,并对其加 以分析 。在 此基 础 上 展 望 了 Deep W eb 爬 虫的研 究趋 势 ,为 下 一 步 的研 究奠 定 了基 础 。 关键 词 :深 层 网络 网络爬 虫 信 息检 索 U RL 动 态 网页 1 引言 随 着人们对信 息重要性 认识 的加深 ,信 息获取 方 式也越来越 多,作为各种信息的载体 ,网络 蕴含着大量 的资源 ,如何 快捷 的从 网络上获取所 需信息成 为人们 亟待解 决的问题。各种搜 索弓l擎 应运而 生 ,例如 传统 的通 用搜 索弓l擎 A ltaVista 、ya hoo l、goog le 等。而这些 搜索引擎存 在着一定 的局限性 ,尤其是 它们无法 搜 索 到深层 网络 (D eep W eb ) 的信 息。据 BrightPlanet 公 司 技术白皮书⋯ ,Deep W eb 里包含的可访问信息容量是 一 般的 Su rface W eb 的40 0 — 500 倍。可见 ,研 究 Dee p W e b 爬虫对于提 高 搜 索覆盖 率和 准确 率有 着非 常重 要的意义。 2 深层 网络爬 虫的定义和研究 目标 网络 爬 虫 ,又称 网络 机 器 人。英 文 名 有 Spide r、 C raw ler、Bots、Robot、W a nderer 等。它是一个 自动 提取 网页 的程序 ,是搜索弓l擎的重要组成部分 。 互联网网页按存在方式 可分为 “表 层网 ”(Su rface W eb )和 “深层 网”( Dee p W eb ,也 有称 Invisib le W eb , H iddenW e b ) J。Surface W eb 指传统 网页搜 索弓l擎可 以索弓l的页 面 ,以超链接 可以到达 的静态网页 为主构 成 的 W eb 页面。Dee p W eb 是指那些存储 在网络数据 库 中 ,不能通 过超链接 访 问而通 过动态 网页技 术访 问 的资源集合。 它最初 由 Dr.Ji¨EIIsw orth 于 1994 年提 出 ,定义为那 些 由普通 搜索弓l擎难 以发现其信 息 内容 的 W eb 页面 j。 Ch rist She rm an 等人⋯ 对 Dee p W e b 定义 为 :虽然 通过互联 网可获取 ,但 是普通 搜索弓l擎 受技术限制不 能或 不作 索弓l的那 些文本页 、文件或其它高质量 的、权 威 的信息。 文献 对 De ep W e b 定 义为 :那 些大部 分 内容是 不能通 过静态 链接获取 的 ,特 别是大部 分隐藏在搜 索 表单后 的 ,只有 用户键 入 一 系 列 关键 词 才 可 获 得 的 页 面 。 广义上来说,Deep W eb 包含四个方面 :(1)通过 填写表单形成 对 后 台再现 数 据库 查询 得 到 的动态 页 面。 (2 )由于缺乏被 指向的超链接 而没 有被 索 引到的 页面。 (3 )需要 注册或 其他限 制访 问的页 面。 (4 )可 ① 基金项 目:中科院知识创新工程重要方 向项 目(K G CX 2 一SW ~5 11) 122 专论 · 综述 Special Issue 维普资讯 http://www.cqvip.com 2008 年 第 5 期 计 算 机 系 统 应 用 访问的非网页 文件 。 因为担心爬虫会 陷入海量动态网页库而浪 费网络 带宽和存储 资源 ,而且 目前的技 术还无 法发现潜藏 在 网络数 据库 中的信 息 ,所 以传统 搜 索引擎 ,比如 Alta— V ista 、ya ho o !、goo gle 等 ,一 般只 索弓l Surfa ce W eb 中 静态 网页、文 件 等 资 源 ,却 不 索 引或 很 少 索 弓l D eep W e b 中的资源 。 2000 年 Brig ht Planet 公司针对 D ee p W e b 作 了一 个详 细的调 查 ,发布 了调 查 白皮 书 ,提 到 几 点调 查发 现 Ⅲ:(1) Deep W eb 中可访 问信 息 容量 是 W W W 的 40O 一500 倍 ;(2 )Deep W eb 包含 7500TB 的 信 息 ,而 Surfa ce W e b 中只有 19TB ;(3 )D eep W e b 包含 近 5500 亿独 立 文档 ,而 Su ce W e b 只包 含 10 亿 :(4 )现 有 Deep W eb 站 点已 超过 100 ,000 个 ;(5 )最大 型 Deep W eb 站 点 的 60 % 所 包 含 资源数 量 约 有 750 G B ,已是 Surf ace W eb 的 50 倍 ;(6 ) Dee p W eb 站 点月访 问量是 一 般 站点的 150% ,并且经 常被链接 :(7 ) De ep w eb 是 互联 网上最 大 、发展 最快 的新 型信 息 资源 :(8 ) Dee p W eb 站点比一般 站点 涉及 范 围较 小 ,内容 更 为精 深 ; (9 )Deep W eb 包 含 的有效 高质 内容 总量 至少 是 Sur- face W eb 的 1000-- 2000 倍 ;(10 )Deep W eb 的信息 内 容与所有的信息需求、市场和领域高度 相关 ;(11)超过 一 半 的 Deep W eb 内容都保 存在 专业领 域 数据 库 中 ; (12 )95%的 Dee p W eb 信息都可被免费访 问。 在 2004 年 ,U IU C 大学又对 Dee p W eb 作 了一次估 算 ],推测出整个 W eb 上有 3 0700 0 个 网络数 据库 站 点 ,45000 0 个 网络 数 据 库 ,比 Brig ht Planet 估 计 的 50000 个又翻了许 多倍 。 通过上述研 究可 见 ,研 究 De ep W e b 爬 虫是 进 一 步提高互联 网信息 获 取 质量和 数 量 的有 效途 径。 但 是 ,通用网络爬 虫在 处理 D eep W e b 时通 常 会遇 到如 下 问题 J: (1)不具备 处理浏 览器端 脚本代码 中所 有可 能产 生新的浏览器导航信息 的机制。 (2 )不具备处理会话 持久 的相 关机 制 ,例 如 cook- Ie o (3 )许多站点使用了复杂的重定 向技术 。 (4 )不 能 处 理 其 他 客 户 端 技 术 ,如 iava applet, fla sh 等 。 (5 )一些复杂的 H T~ IL 代码 ,例 如 fra m es 嵌套 ,ht— tps 技术等 。 3 深层网络爬虫研究进展 现有的 Deep W eb 爬虫技术大部分是基 于表单填 写 ,按表单 填写方 法可分 为两类 :1)基于领域 知识的表 单填写。该 方法一般 都有一 个本体 库 ,通过语 义分 析 来选取合适 的关键 词组合填 写表单 ;2 )基 于网页结 构 分析 的表 单填 写。此方法一般无领域知识或者仅 有有 限的领域 知识 ,将 网页表单构建成 D O M 树 ,在 D O M 树 中提取表单 各字段 值。此外 ,还 有一些 爬虫技 术能 够 处理 ia vascript 语言 。 3 .1 基于领域知识 的爬虫技术 Rag hava n S 等人 提 出 的 H iW E 系统 中 ,C raw ler 管理器负 责管理 搜集 过程。它对 下载 的 W eb 页 面进 行分析 ,包含表 单的页 面被送 到表单 处理器 处理。表 单处理 器先从页 面 中抽取 出表单 ,再从预先 准备好 的 数据集 中选择 数据 自动 完成填 写 ,然 后将 合成 的 U RL 提 交给 C raw ler 管理器 以下载相 应 的结果页 面。该 方 法要求 用户事先 准备相应 的表单数 据集 ,每个表 单项 只跟一个 文本相关 联 ,不能站 在全局 的观 点上来处 理 表 单项 ,且不 能处理 ia vascript 脚本。 Yiyao Lu 等 人提 出一种获取 Form 表单信息的多 注解方法 。该方法首先将数据单元按语义分配到各 个 组 中,接着对每组从多方面注解 ,集合各种注解结果来 预测一个最终的注解标签。但当在 相同的 SRR 中的一 个属性有多重数据单元 时 (例如一本 书有 多个作 者 ), 该方法将会出错。 Zhen Zhang 等人 在文章 中提 出一 种轻 量级 的 基于领域知识 的 自动表单填 写框架。其核心是一 种基 于类型的搜 索驱动方 法 ,此方法 能将查询 重定向 到一 组相关 资源的集合。 严亚兰 提 出了一种面向动态网页爬行 的 Crawl — er架构 。它包括 crawl 模 块、表单分析模 块 、表单 处理 模块 、结果分析模块 、语义 词表管理 模块、URLs 集和 语 义 词表 ,并 与搜 索引擎 中的索弓l数据集 或网页数 据集 发 生信息交 互。crawl 模块 控制 并执行所 有 的爬行过 程 。它先从一个种子 U RLs 集开始爬行 ,对爬 回的静态 SpecialIssue 专论 · 综述 12 3 维普资讯 http://www.cqvip.com 计 算 机 系 统 应 用 2008 年 第 5 期 网页 ,进行 以下几方面 的处理 :从网页中抽取所 有的 由 链接指 向的 URLs ,并将这些 URLs 存入到 URLs 集 中 :将 爬回的网页保存在网页数据集中(如果存在),或者保 存在缓存 中足 够长 的时间 ,使 索引模 块完成 索引任务 并将索 引数 据保存在 索引数据 集中 ,并保证表 单分 析 模块 完成对 网页表单 的分析。 郑冬冬等人 提 出的爬 虫 ,首先针 对站 点接 口产 生一个 查询 ;然后下载结果索引列表页 面 :最后根 据结 果的索引下载具体页面。其中查询关键字选择 策略采 用三种方式 :随机选择、根据词频选择和适应性 策略方 式 。查询选择算法主要是通过 Efficiency (q i) = P (qi)/ C ost(qi)来计 算查询 qi单位代价 下获取新 的文档 页面 数 ,以此获得效能值最大的关键 词。 A lva rez 等人 提 出的 D eep Bot 是基 于一 系列 的 领域 知识 ,每 种 领域 定 义描述 了一个 数据 采 集任 务。 它采 用了基于视觉距离和角度 的方法计算表单 各项的 最佳 项值 ,距离超出 阈值的文本 舍弃 ,距离相等 的文本 比较 该文本与 表单项 的角度 ,表单项 与文本之 间的文 本相似 度通 过 文献 中 的 TFID F 和 Jaro — W inkle r ed it — distance 算法来计算。并且通过 各表 单项的相似 度 计算表单与主题的相似度 ,来识别与主 题相关的表单 , 模拟填写表单,基于对象和客户端脚本的事件触发机 制提交 执 行表 单 来得 到 hidden w eb 中 隐藏 的信 息。 该方法不适 于快速搜 索和加密的表单。 3.2 基于网页结构分析的爬虫技术 Bergholz 等 人 针 对 全 文本 搜 索 表 单 的 Deep W eb 进行处理 ,这种网页 的搜 索表单 只有一个 输入关 键字的表 单项。A lexa ndros N to ulas 等人 在文 献 中 可 以针对前面 的搜 索结 果 自动产生新 的搜索关键 词 , 并对它们进 行优 先级 排序 以获 得 隐藏在 表 单后 的信 息。该方法优点是可以使 用最少 的提交次数得 到用户 想要 的数据 ,但是不能处理含多形式 的表单。 A ¨I.El— Desouky 等 人 提 出一种 LEHW 方法 , 该 方法通 过 一 个 解 析 器 (将 H TM L 网页 表 示 成 一 个 DO M 树形式 )来 区分 (S — A )和 (M — A ) ,索引 表单通 过 两种不 同 的数 据结 构 ,一 种 是针 对 S — A 表单 ,另 一 种 是针对 M — A 表 单 ,然后分 别通过 页面标 签判 断 进 行处理。 此方 法不 仅可 以对 m ulti— attribute (M — A )型表单 进行 处 理 ,而 且 对 现 有 的 sing le — afl dbute 12 4 专论 · 综述 Spec词 Issue (S — A )型 表单处 理 技 术 改进 。但 不足 之处 在 于 LE- Hw 方 法 在提 取 标 签 方 面 精确 度 没 有 H IW E 方 法高 。 陈珂等人 [18]提 出一种两 阶段采 样策 略 ,确定 是 否充分获取 了后台数据库数据 。首先 用默认值来提 交 表 单 ,然后对表 单元素值 组合进行采样 以确定该提 交 是否返 回了后台数据库 的所有数据 ,若是 ,则结束提交 过程 :否则 ,在爬虫所具 有资源限制范围 内穷尽所 有可 能值 的 组 合。 该 方 法 不 足 之 处 是 只 能 获 取 一 部 分 De ep W eb 页面 ,且无法处理文本域元素。 Lu ciano Ba rbosa 等 人 提 出了一种 自适 应 抓取 策略 ,以有效地 找到切 入点隐藏 w eb 资源。 由于隐藏 网页 的来源是稀疏 分布 的,作 者通 过 网页内容将爬 行 定位到某一主题 ,优 先考虑主题相关链接 ,并跟踪那 些 可能不会导致立即受惠的链接 ,并提出 了一个新框 架 , 以 自动学 习模式来 调整爬行 方 向,大大减 少 了手工设 置和调整。 由此 ,我们可 以在设 计爬虫 时适 当考虑 那 些非主题链接 ,在选取链 接时 ,自动学 习模式是值得借 鉴的。 孙彬等人在文章 中提 出一种 基于 XQ ue~ 的搜 索系统。该系统模 拟表单和特 殊页 面标记 切换 ,把 页 面关键 字切换信息 描述为三 元组单元 ,按 照一定规 则 先进行 盲搜 索 ,排除 无效表单 ,然后将 W eb 文档构 造 成 DO M 树 ,利用 XQ ue~ 完成 文字属性映 射到表单字 段 的识别过程 。此方法在处理 常规结构 的站 点时其爬 行覆盖率达到 了7 1% 以上。但是对于现在大 量出现 的 非 常规结构 的站点 ,没有很好的处理 。 宋晖等 人心¨提 出了一套 自动查询 H idde n W e b 信 息的系统 H W IR 。用户可 以输入 索 引主题 及相 关文本 来检 索包 含 了 H idde n W eb 信息 的 W e b 页面 。H W IR 利 用 C raw ler 来收集网页 ,使 用对象抽取技术从网页 中 分 析 H id den W eb 中数据库 的人 1:21 Form 表 单 ,然后 自 动建立 H id den W e b 信 息的索引 ,用户可通过结构化 查 询 获取所 需的 H id den W eb 信息 的网页。文 中采 用的 1_ro E 技术是 一 种基 于 标 记树 结 构 的 表 单抽 取 算法 。 它首先将 W eb 页面表示成树型结构 ,然 后再 以此树 为 基础进行表单对象的抽取 。该方法抽取对象主要针 对 HTM L、XM L 中的文本 信 息 ,对 用 ASP、JSP 的代码 没 有 分析 ,而很 多的 Hidden W eb 信息入 1:21就隐藏在这些代 维普资讯 http://www.cqvip.com 200~, 年 第 S 期 计 算 机 系 统 应 用 码 中 o 3 .3 基于脚本语言分析的爬虫技术 目前基于脚本语言的爬虫 技术 ,通 用的方法 是 用脚本分析 引擎 来 模 拟浏 览器 动作 ,执 行 脚本 代码 。 开放源码 的 Javasc ript 引擎 SpiderM onkey 提供 了一 个 最基本的且易 于扩展 的 JavaScripf分析 器。通过 包装 SpiderM onkey,使其接 口能 接收 从 页 面提 取 的 JavaS— cripf代码 ,返 回执 行 Java sc ript 后得 到 的所 有 U RL,从 而完成爬虫任务。 A lberto Pa n 等人提 出另一种解决客户端隐藏 网络 的解决方案 。该方 案包含 三个步 骤 :1)将网页 文档 当作路 由表来处理会话持久 问题。2 )使 用标准浏览 器 API自动构建迷你浏 览器替代 http 客 户端 处理脚 本执 行代码 ,页面重 定向。3 )通过 一种 自底 向上的递 归算 法来处理弹 出菜单 ,以及其他动态页面元素。 上面 的两种解决方案为我们着手脚本代 码的研究 指明了方 向,我 们可 以在 此 基础 上 进 一 步 的 改 进 与 完善。 4 深层 网络爬 虫的研究趋势 本文从 网络信息生产的趋势看 ,越 是价 值高 、规 模 大 的信 息往往 越深藏在深 层网络 中 ,而现在 大部分 的 网络爬虫都 无法 对深层 网 络 中的 Flash 和 Script等动 态网页和数据库 进行 采集。当前对 于 De ep W e b 爬虫 技术 的研 究大 多只是 针对表单 的 ,少数 针对 iavascript 脚本代码 的 D eep W eb 处理 引。深层网络爬虫的研究 将趋 向于以下几个方面 : 一 关于 A JA X 技术 的深层 网络爬虫研究。 A JA X 技术现 已被 广泛使 用在 网页 中。G o og le 的 O rkut,G m a il,以及 最 近 的 beta 版 的 G oo gle G rou ps、 Google Sugge~ 和 GoogleM aps,都 应 用了 A JAX 这 项 技术 。Flickr、A m azon 的 A 9.corn 搜 索引擎也采 用 了类 似 的技 术。M icrosoft 已经 推 出 了 Atlas 的 B 版 ,它在 ASP.NET 中 实 现 了 Aiax。 BEA System s 公 司 正 在 把 A iax 功能构建到它的 门户产品中并把 Ajax A PI加入运 行时 工 具。Su n M icro syst em s 公 司 计 划 把 A jax 加 入 Java Server Faces。 企 业服 务 总 线 供 应 商 CapeClear Softw a re 公司 则计 划把 A jax 工具加 入 以 SO A 为 中心 的产品中。A jax 的广泛研 究和应 用 ,使 得 以 a jax 为基 础的新一代 iavascript 网络 站 点信息 抽取 问题 的研 究 显得越 来越 重要。 通 过我们对国 内外 研究进 展 的探 讨与分 析 ,目前 很少有人针对 此 类网页 进行爬 虫技 术 的研究 。这 方面的研 究也 将成为 Dee p W eb 爬虫需要 处理 的技术 难 点之一。 二 多媒体网络爬虫研究 随着超媒体 技术和 宽带 网技术 的发展 ,开 发可 查 寻 图片、声 音、图像和 电影 的搜 索 引擎 是一 个新 的 方 向 。因特 网上 图形 、图像 、视频 音频 、动画等多媒体 信息正 日渐丰 富。同 时 ,用户对 其检 索的要求 也在 不 断增长 。伴随着搜 索 引擎 的发展 ,各种基 于网络 的 多 媒体爬虫技术研究将会成为爬虫研究的新方向。 三 对等 网络 p2 p (Peer - to — pee r) 对等 网络在加强 网络上人的交流 、文件交换 、分布 计算等方面大 有前途 。长 期以来 ,人们 习惯 的互 联 网 是 以服务器为 中心 ,人们向服务器发送请 求 ,然后浏览 服务器 回应的信息。而 p2p 所包含的技术是使联 网电 脑能够进行数据交 换。但数 据是存储 在每 台 电脑里 , 而不 是存储 在既昂贵 又容 易受到攻击 的服 务器里。网 络成员可在网络数据库里 自由搜索、更新、回答和传送 数据。很多人都共享了他们认为最有价值的东西,这 将使 互联 网上信息 的价值得 到极大 的提升。 5 结束语 随着 w eb2 .0 网站 的大量 涌现 ,通 用网络爬 虫技 术日臻成熟,面向深层网络的爬虫技术已经开始成为 搜索引擎发展的主要趋势 之一。本文在给 出深 层网络 的定义 ,以及通 用网络 爬 虫在深层 网络 中遇到 的困难 与挑 战后 ,对 现有 的各类面 向深层 网络 的爬虫技 术进 行 了分析 ,希 望通过本 文能够对 这一领域 的研究 有一 个 比较清晰 的概括与总结。 总之,针对深层网络的爬取技术仍然处于探索阶 段 ,距离实际应用还比较远 ,仍有大量的问题需要我们 去研 究。 参 考 文 献 1 M IC H A E L K . B E R G M A N ,T h e D eep W eb :S u rfa cin g Special Issue 专论 ·综述 12 5 维普资讯 http://www.cqvip.com 计 算 机 系 统 应 用 2008 年 第 5 期 H id d en V alu e . http ://w w w .com p lete p lan et.com /T u torial s/DeepW eb/[EB/OL ],2000. 2 刘金红 ,陆余 良.主题 网络爬 虫研 究综述.计算机应 用研 究,2007 ,24 (10 ) :26 — 29 、47 . 3 李涛,陈鹏,李哲.深度 W eb 资源探测 系统的研究与 实现.微计算机信 息,2007 ,23 (11— 3):185 — 187. 4 郑冬冬 ,赵 朋 朋 ,崔 志 明.DeepW eb 爬 虫研 究与 设 计.清华 大 学 学报 ( 自然科 学版 ),2005 ,45 ( s1): 18 9 6 — 19 0 2 . 5 郑冬冬 ,崔志明.Deep W eb 爬 虫爬行策略研究.计算 机 工程与设计 ,2006 ,27 ( 17 ) :3 154 — 3 158 . 6 M an u el A lv arez ,A lb erto P an ,Juan R ap oso ,A n ge l V i- n a .C lien t — S ide D eep W eb D ata E xtraction exte nd e d paper,http ://w w w .tic.udc.es/一m ad/publications/ c sd eep w eb _ exte nd ed .p d f ,20 0 2 . 7 C h an g K C C ,H e B ,L i C ,et a1.S truc tu re d d atab ases on the web :Observations an d im plications[c ] SIC,- M O D R ecord ,2004 ,33 (3 ) . 8 M an u el A lvarez ,A lbe rt o P an ,J uan R ap oso ,A n ge l V i- a s.C lien t — S id e D eep W eb D ata E x tra ction .P roc eed — in gs of the IE E E Intern ation al C o nfere n ce o n E -- C o m ·- m erce T ech n ology for D y nam ic E — B usine ss. 9 R agh av an S ,G arcia — M o lin a ,H .C raw lin g th e H id d e n W eb .R eport ,2000 ( 36 ) ,http ://dbpubs.stanford . e d u /pu b /2 00 0 — 3 6 . 10 Y iyao L u ,H al H e ,H on gk a n Z h ao ,W e iy i M e ng .A n · no tatin g S tru ctu red D ata of th e D ee p W e b ,IE E E , 2 00 7 :3 7 6 — 3 85 . 1 1 Z be n Z h an g ,B in H e ,K ed n C h en — C h u an C han g . L ight— w eigh t D oma in — based Form A ssistan t:Q uer- y in g W eb D atab as es O n the F ly .In P ro cee d in gs o f th e 3 1 st V ery L arge D ata B as es C on fere nce , 2 00 5 :9 7 — 10 8 . 12 严 亚兰.面向动 态 网页爬行 的 C raw ler 架构.图书 情报 知识 ,2003 (4 ) :5 1 — 53 . 13 M an u el A lvare z , Ju an R ap oso , A lb ert o P an , F d el 12 6 专论 · 综述 Special J8瓯|e C a ch ed a ,F ern an d o B ellas , V icto r C arne iro . D ee p . B ot :A F oc used C raw le r fo r A cce ssin g H id d en W e b C on ten t.A C M ,2 0 0 7 :18 — 25 . 14 C oh en ,W ,R avik um ar.,P .,F ien b erg ,S .A C om . p ariso n of S tri n g D istan ce M e~ c s fo r N am e —- M ate.- h in g T a sk s.In P roc eed in gs of IJ C A I 一0 3 W o rk sh o p . 20 0 3 :7 3 — 7 8 . 15 B erg ho lz A ,C h id lo vsk ii,B . C raw lin g fo r D om ain — S pe cifi c H id d en W eb R esou rce s.C onf ere nc e on W eb Inf orm ation Sy stem s E n gine eri n g .20 0 3 :125 — 13 3 . 16 N tou las ,A .,Z e rfo s ,et a1.D o w n load in g T ext ual H id . den W eb C ontent T hrough K eyw ord Q ueri es.P rocee d— hag s of th e 5 th A C M /IE E E Jo in t C onf e ren ce on D ig ital L ib raries .2 00 5 :100 — 10 9 . 17 A li I.E l — D esou k y ,H esh am A . A li,S ally M .E 1 一 G h am ra w y .A n A u toma tic L abe l Ex traction T e ch n iq u e fo — r D om ain — S pe cifi c H id d en W eb C raw lin g ( L E - H W ) ,IEE E 20 06 :454 — 459 . 18 陈珂 ,陈小英 ,徐 科.H idden W eb 信息获取.计 算机 时代 ,2007 (5 ) :54 — 56. 19 L u cian o B arb osa ,Ju lian a F re ire.A n A da ptive C raw l— er fo r L o catin g H id d en — W e b E n try P oints . B an ff , A lb ert a ,C an ad a .W W W 2 0 0 7 ,5 :4 4 1 — 4 50 . 20 孙彬,王东,李娟.基于XQ uery 的Deep w eb 搜索系 统 的设计 与 实现.科 学技 术 与工程 ,2007 ,7 ( 16 ) : 40 80 — 4 0 84 . 2 1 宋晖,张岭 ,叶允 明,马范援.基 于标记 树对 象抽 取 技 术的 H idden W eb 获取研 究.计算机 工程与应用 , 2002 ,(23 ) :9 — 12 ,24. 22 王 映 ,于满泉 ,李盛 韬,王斌 ,余智 华.JavaScript 引 擎在 动 态 网页 采 集技 术 中的 应 用.计 算机 应 用, 2004 ,24 (2 ) :33 — 36 . 23 罗兵.支持 AJAX 的互联网搜索引擎爬虫设计与实 现[硕士学位论文].杭州,浙江大学,2007. 24 彭建荣 ,罗永 会.搜 索 引 擎的 基本 原 理 及 发展 趋 势.电脑知识 与技 术,2006 (2 ) :84 — 85. . 维普资讯 http://www.cqvip.com

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 2 人已下载

下载文档

相关文档