XCLW23883 基于Lucene框架的搜索引擎算法研究摘要随着Internet技术的迅速发展,网络提供给人们的信息量越来越大。搜索引擎作为人们在网上查找、获取信息的重要手段之一,在各个领域都已得到了广泛的应用。目前定制和维护搜索引擎的需求越来越大,对于处理庞大的网络数据,如何有效的去存储它并访问到我们需要的信息,变..
XCLW23883 基于Lucene框架的搜索引擎算法研究 摘要 随着Internet技术的迅速发展,网络提供给人们的信息量越来越大。搜索引擎作为人们在网上查找、获取信息的重要手段之一,在各个领域都已得到了广泛的应用。目前定制和维护搜索引擎的需求越来越大,对于处理庞大的网络数据,如何有效的去存储它并访问到我们需要的信息,变得尤为重要。Web搜索引擎能有很好的帮助我们解决这一问题。本文阐述了一个简易搜索引擎的原理及其设计和实现过程。本文首先介绍了课题研究背景,然后对系统涉及到的理论知识,框架的相关理论做了详细说明,最后按照软件工程的开发方法逐步实现系统功能。 关键词:搜索引擎;设计;实现 目 录 摘要 1 第1章 研究背景与意义 1 第2章 网页相似度度量问题描述 2 2.1概述 2 2.2系统结构 2 2.2.1爬虫 2 2.2.2信息处理 2 2.2.3排序和索引 3 2.2.4搜索 3 2.3搜索引擎主要指标及分析 3 第3章 网页相似度度量算法介绍 4 3.1 信息检索系统简介 4 3.2 信息检索的过程 4 检索的整个过程包括:构建文本库,建立索引,进行检索。 4 3.3 Lucene 4 3.3.1Lucene结构分析 5 3.3.2 Lucene索引的建立 5 3.3.3 Lucene的搜索 6 3.3.4 中文分词 6 第4章 仿真实验与分析 8 4.1系统功能图 8 4.2系统实体设计 8 4.2.1实体 8 4.2.2实体的属性 9 4.2.3实体间的联系 10 4.3系统实现 10 4.3.1系统需要的环境 10 4.3.2系统中Nutch的配置 10 4.3.3对整个网络进行抓取 11 4.3.4Solr安装配置和使用 15 4.3.5给Solr 4.2添加mmseg4j 15 4.3.6客户端应用程序的实现 17 第5章 总结与展望 24 5.1总结 24 5.2展望 24 参考文献 27
|
上一篇:基于JSP的零食购物网站制作 | 下一篇:基于PHP与AJAX技术的互动微信墙的.. |
点击查看关于 基于 Lucene 框架 搜索引擎 算法 研究 的相关范文题目 | 【返回顶部】 |