网站地图
范文同学网


自动化 模具 机械 电子 通信 动画 英语范文 工程管理 金融范文 旅游管理 工业工程 生物工程 给排水范文 西门子PLC 历史学 三菱PLC
单片机 财务 会计 法律 行政 物理 物流范文 电子商务 制药工程 包装工程 土木工程 材料科学 汉语言范文 欧姆龙PLC 电压表 松下PLC
计算机 化工 数电 工商 食品 德语 国贸范文 人力资源 教育管理 交通工程 市场营销 印刷工程 机电一体化 数控范文 变电站 文化产业

  • 网站首页|
  • 文档范文|
  • 人工降重|
  • 职称文章发表|
  • 合作期刊|
  • 范文下载|
  • 计算机范文|
  • 外文翻译|
  • 免费范文|
  • 原创范文|
  • 开题报告

联系方式

当前位置:范文同学网 -> 开题报告 -> 电气自动化开题
·电气自动化原创文章范文
·学前教育专业原创文章范文
·国际经济贸易原创文章范文
·药学专业原创文章范文
·英语专业原创文章范文
·公共事业管理原创文章范文
·金融专业原创文章范文
·农业推广技术原创文章范文
·电子商务专业原创文章范文
·法律专业原创文章范文
·工商管理原创文章范文
·汉语言文学原创文章范文
·人力资源管理原创文章范文
·动物医学专业原创文章范文
·心理学专业原创文章范文
·教育管理原创文章范文
·市场营销原创文章范文
·计算机专业原创文章范文
·物流管理专业原创文章范文
·小学教育专业原创文章范文
·行政管理专业原创文章范文
·土木工程管理原创文章范文
·财务会计专业原创文章范文
·信息管理信息系统原创范文
·室内设计专业原创文章范文
·眼视光技术原创文章范文
·材料工程管理原创范文
·工业设计专业原创文章范文
·航海技术专业原创文章范文
·模具设计与制造原创范文
·汽车检测与维修原创范文
·数控技术专业原创文章范文
·汽车技术服务原创文章范文
·光机电应用技术原创范文
·机电一体化原创文章范文
·印刷技术专业原创文章范文
·动漫设计与制作原创范文
·软件技术专业原创文章范文
·广告设计专业原创文章范文
·应用电子技术原创文章范文
·电子信息工程技术原创范文
·机械专业原创文章范文
·酒店管理专业原创文章范文
·旅游管理专业原创文章范文
·文化产业管理专业原创范文
·质量管理专业原创文章范文
·通信工程专业原创文章范文
·护理专业原创文章范文

本专业推荐:带PLC源程序的文档设计范文     原创文档范文点击进入 → 电气工程自动化单片机原创文档范文

基于Lucene框架的搜索引擎算法研究_开题报告

Ktbg7400 基于Lucene框架的搜索引擎算法研究_开题报告随着科技的发展,Internet已经成为我们学习和工作的重要工具,与我们的生活密不可分。与此同时,互联网上的信息量又是浩如烟海,所以我们需要借助搜索引擎来帮助我们寻找特定领域的资料,然而像Google、百度等综合搜索引擎都不是为搜索特定领域资源而生的,这些搜索..
基于Lucene框架的搜索引擎算法研究_开题报告 Ktbg7400  基于Lucene框架的搜索引擎算法研究_开题报告

随着科技的发展,Internet已经成为我们学习和工作的重要工具,与我们的生活密不可分。与此同时,互联网上的信息量又是浩如烟海,所以我们需要借助搜索引擎来帮助我们寻找特定领域的资料,然而像Google、百度等综合搜索引擎都不是为搜索特定领域资源而生的,这些搜索引擎面向所有用户,力争在返回结果上做到面面俱到。因此,真正需要的资料往往淹没在大量无用的信息中,在这种情况下,面向特定领域的垂直搜索引擎应运而生[1-3]。作为^文档设计的课题,本课题不可能面面俱到,只能选择垂直搜索引擎的部分算法展开研究。
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的垂直搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
目前,国内外的垂直搜索引擎的发展趋势是通用型搜索引擎向特色型搜索引擎转变[4-9]。国内有些系统已经实现并商用,例如下面的一些垂直搜索引擎: 
爱看图标网,中文图标搜索引擎(://.iconpng.com/)。目前收录了100000多个图标,功能还不错,可以按照图标系列、分类、色系、关键字、图标标题等搜索;可以查看每一个图标的作者信息、尺寸大小、图像文件格式、色系、所属分类等信息。每一张图标都提供png格式下载,大多数图标同时还提供ico格式下载。
查一下,专门查询各种号码的垂直搜索引擎(://.cha086.com/)。目前支持手机归属、IP地址、邮政编号、电话区号、身份证查询、QQ号码、车牌查询,和查一下类似的网站有很多,之所以这里会选择查一下,是因为这个网站没有广告,而且有很多特色的功能:可以查车牌号码(这个在别的网站还没发现有类似的),查询QQ号码时不仅能看到号码的主人是否在线,而且还能看到该QQ号码的QQ秀;手机归属查询有很有趣的投票功能等等。     
找字网,中文字体搜索引擎(://.zhaozi.cn/)。找字网是一个专注于搜索字体的网站,还支持按字体编码、字体类型等高级搜索功能,同时还支持字体在线预览平台,可大大节约寻找字体的时间。
豆丁网,中文文档搜索引擎(://.docin.com/)。豆丁网号称收录了一亿多文档,是最大的中文文档库,提供针对文档标题、简介、内容的关键字检索功能,并且支持Word、PDF、PPT、Jpg等30多种文件格式。 
职友集,中文最大工作搜索引擎(://.jobui.com/)。专注于职位搜索领域。随着网络招聘市场规模的扩大,行业招聘和地区招聘网站的成熟,招聘信息呈分散的趋势。职友集更新的即时职位信息最高峰突破70万条/日,一般更新速度稳定在日均30-40万条之间。庞大的职位信息支持了职友集的薪酬搜索数据的准确性。
国外很多学者和企业对搜索引擎的研究[10-12]更早,而且很多系统已经实现商用,例如下面的一些垂直搜索引擎: 
Elsevier的Scirus系统,Scirus 是专门用于科技信息检索的世界上最全面的科技搜索引擎。Scirus科学搜索引擎是一种专门为搜索高度相关的科学信息而设计的垂直搜索引擎,获得《搜索引擎观察》授予的“最佳专业搜索引擎奖”。 
Berkeley的FocusedProject,该系统有一个印度裔科学家S.Charkrabarti带头研究开发,通过两个程序来指导爬行器。一个是分类器,用来计算下载文档与预定主题的相关度;另一个是程序净化器,用来确定哪些指向很多相关资源的页面。
NEC研究院的CiteSeer,CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing,ACI)机制的基础上建设一个学术^范文数字图书馆。这个引文索引系统是提供了一种引文链接的检索方式,目标是从多个方面促进学术文献的传播和反馈。CiteSeer检索WEB上的PostScript和pdf两种格式的学术^范文。目前,在CITESeer数据库中可检索超过50万篇^范文,这些^范文涉及的主要内容是计算机领域。
课题关键问题及难点:
垂直搜索引擎提供的搜索服务是针对特定领域、特定人群和特定需求的,因此在在网页搜索时尽可能只爬去同一类页面,即和主题相似度较高的网页。下面给出一种解决办法:
人工搜集若干与主题相吻合的网页;对这些网页进行分词处理,运用统计方法找出网页中的高频词汇(高频词汇最有可能反应网页的特征),将得到的这些高频词汇作为一组特征向量(w1,w2,w3…wn);
这里假定搜索到的若干网页是相互独立的,且每篇网页中的关键词之间也是独立的。再次分析得到的网页,给特征向量的每一个元素分配一个权值,以表示他们和主题的相似度大小,这样得到一组加权特征向量(a1,a2,a3…an);
对爬虫抓取的网页,根据(w1,w2,w3…wn)计算每个特征词在新网页中的权值,得到一组新的特征向量(c1,c2,c3…cn),最后计算特征向量(a1,a2,a3…an)和(c1,c2,c3…cn)之间的夹角,夹角越小,证明该网页与主题的相似度越高。


B、^范文提纲
摘要
第1章 研究背景与意义
第2章 网页相似度度量问题描述
2.1概述
2.2系统结构
2.3搜索引擎主要指标及分析
第3章 网页相似度度量算法介绍
3.1  信息检索系统简介
3.2 信息检索的过程
3.3  Lucene
第4章 仿真实验与分析
4.1系统功能图
4.2系统实体设计
4.3系统实现
4.3.1系统需要的环境
4.3.2系统中Nutch的配置
4.3.3对整个网络进行抓取
4.3.4Solr安装配置和使用
4.3.5给Solr 4.2添加mmseg4j
4.3.6客户端应用程序的实现
第5章 总结与展望
5.1总结
5.2展望
参考文献


C、参考文献
[1]许翰林,王瑞,王佳丽,吴宸阳,李浩,陈阳.基于Lucene的新闻垂直搜索引擎设计与实现[J].电脑编程技巧与维护.2018年02期.
[2]徐梦琪.基于大数据的有声图书馆搜索引擎设计[J].农业图书情报学刊.2018年01期. 
[3]姚奕伸,张旖旎,周婷,陈恩泽,陈晓星.面向医疗的垂直搜索引擎的研究与开发[J].科技与创新.2018年13期
[4] 杨仁广,宋宇等.一种改进的Shark-Search的多媒体主题搜索算法[J].计算机工程与应用,2010
[5] 李碉,刘发升.基于链接分析的HITS算法研究[J].软件导刊,2008.
[6] 张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J],计算机工程与应用, 2009.
[7] 蔡建超,蔡明.搜索引擎PageRank算法研究[J],计算机应用与软件,2008.
[8] 曾亮.齐欢.王小平.陈阴春. 基于J2EE核心模式的组合Web框架研究[J]. 华中科技大学学报(自然科学版) 2007 35(6):44-46
[9] 陈志雄. 利用Struts2框架和jQuery框架实现AJAX的开发[J].现代计算机: 2011(15):77-79
[10]Thi Thi Zin,Pyke Tin,Hiromitsu Hama .A Human Behavior Analyzer Framework for consumer product search engines [C].  2014 IEEE 3rd Global Conference on Consumer Electronics (GCCE).Tokyo, Japan, 7-10 Oct. 2014 . 
[11]Denghong Liu,Xian Xu,Yu Long.On member search engine selection using artificial neural network in meta search engine[C].  2017 IEEE/ACIS 16th International Conference on Computer and Information Science (ICIS),Wuhan, China ,24-26 May 2017 .    
[12]Rajesh Kumar,Sunil Kumar Singh,Virendra Kumar.A heuristic approach for search engine selection in meta-search engine[C].International Conference on Computing, Communication & Automation.Noida, India ,15-16 May 2015  



基于Lucene框架的搜索引擎算法研究_开题报告......
上一篇:基于PLC的颜色识别和短路断路检测.. 下一篇:地区电网无功优化运行闭环控制系..
点击查看关于 基于 Lucene 框架 搜索引擎 算法 研究 开题 报告 的相关范文题目 【返回顶部】
精彩推荐
电气工程自动化原创范文  电子商务原创文章范文
人力资源专业原创文章范文 土木工程原创文章范文
工商管理专业原创范文    药学专业原创范文
汉语言文学专业原创范文  会计专业原创文章范文
计算机技术原创文章范文  金融学原创文章范文
法学专业原创文章范文   市场营销专业原创范文
信息管理专业原创文章范文 学前教育专业原创范文
公共事业管理专业原创范文 英语专业原创范文
教育管理专业原创范文   行政管理专业原创范文

关于我们 | 联系方式 | 范文说明 | 网站地图 | 免费获取 | 钻石会员 | 硕士文章范文


范文同学网提供文档范文,原创文章范文,网站永久域名www.lunwentongxue.com ,lunwentongxue-范文同学网拼音首字母组合

本站部分文章来自网友投稿上传,如发现侵犯了您的版权,请联系指出,本站及时确认并删除  E-mail: 17304545@qq.com

Copyright@ 2009-2024 范文同学网 版权所有