XCLW23882 基于Lucene的面向主题的搜索引擎的设计与实现 (字数:15102)摘 要随着网络的迅猛发展,获取准确的网络信息变得困难。目前虽然已经有谷歌、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。通用搜索引擎的信息量大,页面更新比较慢,信息的实时性、准确性都无法保证。因此,本文设计并实现了面..
XCLW23882 基于Lucene的面向主题的搜索引擎的设计与实现 (字数:15102) 摘 要 随着网络的迅猛发展,获取准确的网络信息变得困难。目前虽然已经有谷歌、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。通用搜索引擎的信息量大,页面更新比较慢,信息的实时性、准确性都无法保证。因此,本文设计并实现了面向主题的小型搜索系统。 本文论述了搜索引擎的发展历史、分类和中文搜索引擎发展现状,明确了系统开发过程中要解决的问题,提出了具体的设计方案。 范文的主要工作以及创新如下:基于Lucene软件包,设计完成了对页面的索引和搜索;研究了最大正向中文分词算法;设计了页面解析功能。 关键词: Lucene,面向主题,中文分词 目录 摘 要 I ABSTRACT II 目录 III 第1章 绪论 1 1.1 引言 1 1.2 本文主要实现内容 1 第2章 搜索引擎概述 2 2.1 搜索引擎的概念 2 2.2 搜索引擎的分类 2 2.2.1 机器人搜索引擎 2 2.2.2 元搜索引擎 2 2.2.3 目录搜索引擎 3 2.3 中文搜索引擎的发展现状 3 第3章 面向主题的搜索引擎技术分析 4 3.1 搜索引擎的结构 4 3.2 网络蜘蛛的结构与工作流程 5 3.3 Lucene简介 6 3.3.1 Lucene的实现机制 6 3.3.2 Lucene索引结构 7 第4章 系统结构分析设计 9 4.1 需求分析 9 4.2 系统设计图 9 4.3 系统详细设计 11 4.3.1 信息采集模块设计 11 4.3.2 索引模块设计 13 4.3.3 搜索模块的设计 16 第5章 小型搜索系统的实现 18 5.1 信息采集模块实现 18 5.2 索引模块的实现 20 5.2.1 文档解析 20 5.2.2 中文分词的实现 22 5.2.3 索引的实现 25 5.3 搜索模块的实现 27 5.4 用户界面的实现 28 第6章 测试与系统性能分析 30 6.1 测试 30 6.1.1 中文分词测试 30 6.2 系统性能分析 30 第7章 总结 32 7.1 总结 32 7.2 未来工作 32 参考文献 33 致谢 34 系统使用说明书 35 1. 使用说明 35 2. 运行环境 35 3. 操作步骤 35 4. 运行结果 35
|
上一篇:基于LEDE的智能路由器设计与实现 | 下一篇:基于MYSQL+JAVAEE的旅游网站设计.. |
点击查看关于 基于 Lucene 面向 主题 搜索引擎 设计 实现 的相关范文题目 | 【返回顶部】 |