网站地图
范文同学网


自动化 模具 机械 电子 通信 动画 英语范文 工程管理 金融范文 旅游管理 工业工程 生物工程 给排水范文 西门子PLC 历史学 三菱PLC
单片机 财务 会计 法律 行政 物理 物流范文 电子商务 制药工程 包装工程 土木工程 材料科学 汉语言范文 欧姆龙PLC 电压表 松下PLC
计算机 化工 数电 工商 食品 德语 国贸范文 人力资源 教育管理 交通工程 市场营销 印刷工程 机电一体化 数控范文 变电站 文化产业

  • 网站首页|
  • 文档范文|
  • 人工降重|
  • 职称文章发表|
  • 合作期刊|
  • 范文下载|
  • 计算机范文|
  • 外文翻译|
  • 免费范文|
  • 原创范文|
  • 开题报告

联系方式

当前位置:范文同学网 -> 范文下载 -> 文档范文下载 -> 用Java来开发一个Web数据抽取工具
行政管理文档范文| 物流管理文章范文| 人力资源范文| 工商管理范文| 旅游管理| 财管管理范文| 工程管理| 安全管理| 乡镇企业管理| 电视制片管理| 文化产业管理| 物业管理|
工程管理文章范文| 工商管理范文下载| 信息管理范文| 人力资源范文| 酒店管理| 免费物流范文| 工商管理| 行政管理| 物流专业范文| 免费旅游范文| 行政管理范文| 人力资源|
·电气自动化原创文章范文 ·学前教育专业原创文章范文 ·国际经济贸易原创文章范文 ·药学专业原创文章范文 ·英语专业原创文章范文 ·公共事业管理原创文章范文
·金融专业原创文章范文 ·广播电视编导原创文章范文 ·电子商务专业原创文章范文 ·法律专业原创文章范文 ·工商管理原创文章范文 ·汉语言文学原创文章范文
·人力资源管理原创文章范文 ·摄影专业原创文章范文 ·心理学专业原创文章范文 ·教育管理原创文章范文 ·市场营销原创文章范文 ·计算机专业原创文章范文
·物流管理专业原创文章范文 ·小学教育专业原创文章范文 ·行政管理专业原创文章范文 ·土木工程管理原创文章范文 ·财务会计专业原创文章范文 ·信息管理信息系统原创范文
·新闻学专业原创文章范文 ·眼视光技术原创文章范文 ·播音与主持原创文章范文 ·广告学专业原创文章范文 ·表演专业原创文章范文 ·动画专业原创文章范文
·视觉传达设计原创文章范文 ·数控技术专业原创文章范文 ·录音艺术原创文章范文 ·光机电应用技术原创范文 ·机电一体化原创文章范文 ·印刷技术专业原创文章范文
·动漫设计与制作原创范文 ·软件技术专业原创文章范文 ·书法学专业原创文章范文 ·应用电子技术原创文章范文 ·电子信息工程技术原创范文 ·机械专业原创文章范文
·酒店管理专业原创文章范文 ·旅游管理专业原创文章范文 ·文化产业管理专业原创范文 ·体育教育专业原创文章范文 ·通信工程专业原创文章范文 ·护理专业原创文章范文

原创文档范文点击进入 → 教育管理专业原创文档范文   现成文档范文点击进入 → 教育管理专业文档范文

用Java来开发一个Web数据抽取工具

本文ID:LW22798 字数:9776,页数:33 ¥50
范文字数:9776,页数:33 摘要 本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(..

范文字数:9776,页数:33

摘要

 本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(利用Java的多线程技术在Internet中拥有海量的Web页面中开发出高效的Spider程序)。Eclipse开发工具采用Spider核心技术遍历URL下载整个Web站点。我通过设计和调用各种Java类实现了上述技术的要求。本设计程序本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。它还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。经过程序运行测试,效果良好。
关键词: 数据抽取,Java类,Web Spider,Java多线程

Abstract

 This topic is an introduction how to develop a Web data sample tool based on the Java.The main contents is to carry out Spider(find, collect web page's information need to have "Web spider" of high performance to search the information of itself in the Internet), analyze HTML(the informations in the Web all build up in the HTML, so the first problem for web robot is how to analyze HTML when crawling web page) and raise program function.(make use of the Java multi-threading technique to develop efficiently of Spider program in the Internet which have a number of Web pages) To adopt the core technique of Spider in the Eclipse to crawl the URL ,then download the whole Web site.I carry out the above-mentioned technical request with design and use various of Java class.The essence of this program is a Web Spider.The main advantage downloaded tool with other to compare it is it can automatically to fill form(such as:Automatically register)with usage cookies to handle session.It still has vivid download rule(such as:Pass the URL, size of web page, MIME type etc.)to limit a download.y the effect is good by a test.
Keyword: the data sample,Java class,Web Spider,the Java multi-threading

目录

摘要 I
Abstract II
第一章 绪论 1
1.1 背景 1
1.2 设计目的及实现方法 1
1.3 国内外的现状 1
第二章 相关技术综述和技术背景 3
2.1 开发工具Eclipse 3
2.1.1 Eclipse简介 3
2.1.2 Eclipse工作台 3
2.1.3 在Eclipse中开发Java程序 4
2.1.4 在Eclipse中调试Java程序 4
2.2 核心技术——Spider 4
2.2.1 工作原理 4
2.2.2 搜索策略 4
2.2.3 搜索策略的趋势 5
2.3 Spider设计 6
2.3.1 Spider采集 6
2.3.2 Socket连接的实现 7
2.3.3 Spider程序结构 7
2.3.4 Spider构架 9
2.4 Spider中采用提高程序性能的技术 9
第三章 总体设计 11
3.1 设计原则 11
3.2 功能目标设计 11
3.3 设计描述 11
3.4 设计的实现 12
3.4.1 Java类的建立 12
3.4.2 Java类的调用和修改 14
3.5 说明 19
3.5.1 主窗口 19
3.5.2 功能窗口 20
第四章 运行与测试 24
第五章 总结 28
致谢 28
参考文献 29

点击下载:下载地址 用Java来开发一个Web数据抽取工具 (收费:5000 积分)  

下载地址 《用Java来开发一个Web数据抽取工具》WORD格式全文下载链接

用Java来开发一个Web数据抽取工具相关范文
上一篇:JSP网上书店系统 下一篇:电子商务的动态商务网站——网络..
点击查看关于 Java 开发 一个 Web 数据 抽取 工具 的相关范文题目 【返回顶部】
电气工程自动化原创范文  电子商务原创文章范文
人力资源专业原创文章范文 土木工程原创文章范文
工商管理专业原创范文    药学专业原创范文
汉语言文学专业原创范文  会计专业原创文章范文
计算机技术原创文章范文  金融学原创文章范文
法学专业原创文章范文   市场营销专业原创范文
信息管理专业原创文章范文 学前教育专业原创范文
公共事业管理专业原创范文 英语专业原创范文
教育管理专业原创范文   行政管理专业原创范文

关于我们 | 联系方式 | 范文说明 | 网站地图 | 免费获取 | 钻石会员 | 硕士文章范文


范文同学网提供文档范文,原创文章范文,网站永久域名www.lunwentongxue.com ,lunwentongxue-范文同学网拼音首字母组合

本站部分文章来自网友投稿上传,如发现侵犯了您的版权,请联系指出,本站及时确认并删除  E-mail: 17304545@qq.com

Copyright@ 2009-2024 范文同学网 版权所有