当前位置: 首页 > news >正文 7块钱建购物网站哈尔滨网站建设工作 news 2025/11/2 19:01:18 7块钱建购物网站,哈尔滨网站建设工作,pageadmin系统,使用jquery做网站文章目录 第1章 Lucene概述1.1 搜索的实现方案1.1.1 传统实现方案1.1.2 Lucene实现方案 1.2 数据查询方法1.1.1 顺序扫描法1.1.2 倒排索引法 1.3 Lucene相关概念1.3.1 文档对象1.3.2 域对象1#xff09;分词2#xff09;索引3#xff09;存储 1.3.3 常用的Field种类 1.4 分词… 文章目录 第1章 Lucene概述1.1 搜索的实现方案1.1.1 传统实现方案1.1.2 Lucene实现方案 1.2 数据查询方法1.1.1 顺序扫描法1.1.2 倒排索引法 1.3 Lucene相关概念1.3.1 文档对象1.3.2 域对象1分词2索引3存储 1.3.3 常用的Field种类 1.4 分词器 第1章 Lucene概述 Lucene是apache软件基金会 jakarta项目组的一个子项目是一套用于全文检索和搜寻的开源程式库由Apache软件基金会支持和提供。其作者是大名鼎鼎的大数据之父Doug-Cutting。Lucene通过使用倒排索引技术能够快速地从大量的文档中检索出相关信息。对文本数据进行高效的索引和搜索支持复杂的查询语法包括布尔运算、短语搜索、模糊搜索等。 在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言Lucene是当前以及最近几年最受欢迎的免费Java信息检索[程序库。人们经常提到信息检索程序库虽然与搜索引擎有关但不应该将信息检索程序库与搜索引擎相混淆。Java中著名的搜索引擎ElasticSearch、Solr等都是采用Lucene作为内核进行开发 Lucene官网https://lucene.apache.org/ Lucene的应用场景如下 网站搜索许多网站使用Lucene或其衍生产品如Elasticsearch来提供站内搜索功能。企业级搜索在企业内部Lucene可用于构建文件、邮件、数据库记录等信息的搜索引擎。日志分析对于大规模的日志数据可以通过Lucene快速定位到特定的错误或异常信息。电子商务在线购物平台经常利用Lucene来优化商品搜索体验提高用户满意度。 1.1 搜索的实现方案 1.1.1 传统实现方案 用户发送请求查询到服务器服务器通过SQL查询数据库将结果返回最终将结果集响应到用户。 特点数据库服务器压力大查询速度慢搜索不智能化。 1.1.2 Lucene实现方案 说明根据用户输入的搜索关键词java应用服务器通过lucene的API搜索索引库索引库把搜索结果响应应用服务器应用服务器再把搜索结果响应给用户。 特点解决用户量大数据量很大系统对搜索速度要求高并且需要智能化搜索的业务需求。 1.2 数据查询方法 1.1.1 顺序扫描法 举个例子比如我们有大量的文件文件编号从ABC。。。。。。 需求要找出文件内容中包含有java的所有文件 需求实现从A文件开始查找再找B文件然后再找C文件以此类推。。。。。 特点如果文件数量很多查找将会非常慢。 1.1.2 倒排索引法 举个例子使用新华字典查找汉字先找到汉字的偏旁部首再根据偏旁部首对应的目录索引找到目标汉字。这个目录在计算机中被称为索引是用来帮助程序快速查询数据用的。 索引的组织方式有很多底层结构也不一样但无论是那种索引都只有一个目标那就是用于提高查询性能快速定位到目标数据所在。 以Lucene为例建立倒排索引 文件一编号0I am Chinese I am Chinese 文件二编号1I love China Term(DocFreq)Chinese(0) (2)love(1)(1)china(1)(1) 说明 建立倒排索引就是建立词语与文件的对应关系词语在什么文件出现出现了几次在什么位置出现搜索的时候直接根据搜索关键词java在倒排索引中找到目标内容。 1.3 Lucene相关概念 使用Lucene的第一步我们需要采集原始数据数据的来源可以是传统的关系型数据库、文本文件、网络资源等 保存在关系数据库中的业务数据MySQL通过JDBC操作获取到关系数据库中的业务数据mysql保存在文件中的数据通过IO流获取文件上的数据网络上的网页文件数据通过爬虫蜘蛛程序获取网络上的网页数据 1.3.1 文档对象 文档对象Document一个文档对象包含有多个域Field。一个文档对象就相当于关系数据库表中的一条记录一个域就相当于一个字段。 1.3.2 域对象 在Lucene中一篇文档对应数据库的一行数据一个域对象则对应一个字段一个文档由多个域对象组成。在Lucene中不同的域对象具有不同的属性和功能 1分词 分词tokenized对域中的文本内容进行根据要求进行分析将一段文本分析成一个个符合逻辑的词组 原始文档 华为5G智能全面屏拍照游戏手机分词后 华为、5G、智能、全面屏、拍照、游戏、手机、游戏手机需要分词的域Field商品名称商品标题。这些内容用户需要输入关键词进行查询由于内容格式大内容多需要进行分词处理建立索引。不需要分词的域Field商品编号身份证号。是一个整体分词以后没有意义不需要分词。 2索引 索引indexed对分词后的数据词组建立索引关系建立倒排索引表索引的目的是为了搜索最终实现的效果是只需要搜索分词后的词组就能找出对应的文档 创建索引是对词组单元索引通过词语找文档这种索引的结构叫倒排索引结构。 原始文档 doc-01: 华为5G智能全面屏手机 doc-02: vivo智能5G游戏手机分词后的数据 doc-01: 华为、5G、智能、全面屏、手机、全面屏手机 doc-02: vivo、智能、5G、游戏、手机、游戏手机建立的索引倒排索引表 Term(DocFreq)华为(1) (1)5G(1) (1) (2) (1)智能(1) (1) (2) (1)全面屏(1) (1)全面屏手机(1) (1)游戏(1) (1)手机(1) (1) (2) (1)游戏手机(2) (1)vivo(2) (1) 建立索引其实就是建立词组与文档之间的关系这个关系表就是倒排索引表由于倒排索引表中也包含词组因此索引建立的越多占用的磁盘空间也会很大 需要建立索引的域商品名称商品描述需要分词建立索引。商品编号身份证号作为整体建立索引。只要将来要作为用户查询条件的词都需要索引。不需要建立索引的域商品图片路径不作为查询条件不需要建立索引。 3存储 存储stored由于索引库的数据都是从其他地方采集的大多数是从关系型数据库中采集因此其他地方已经存储一份原始数据因此有些域我们是不需要存储到Lucenen的索引库的只有那些需要搜索的域我们才存储到Lucene中 需要存储的域商品名称商品价格。凡是将来在搜索结果页面展现给用户的内容都需要存储。 不需要存储的域商品描述。内容多格式大不需要直接在搜索结果页面展现不做存储。需要的时候可以从关系数据库取。 1.3.3 常用的Field种类 Field种类数据类型是否分词是否索引是否存储说明StringField(FieldName,FieldValue,Store.YES))字符串NYY或N字符串类型Field不分词作为一个整体进行索引比如身份证号商品编号是否需要存储根据Store.YES或Store.NO决定DoublePoint(FieldName,FieldValue)数值型代表YYNDouble数值型Field代表分词并且索引比如价格不存储StoredField(FieldName,FieldValue)重载方法支持多种类型NNY构建不同类型的Field不分词不索引只存储。比如商品图片路径TextField(FieldName,FieldValue,Store.NO)文本类型YYY或N文本类型Field分词并且索引是否需要存储根据Store.YES或Store.NO决定 1.4 分词器 分词器是将用户输入的一段文本分析成符合逻辑的一种工具。到目前为止呢分词器没有办法做到完全的符合人们的要求。和我们有关的分析器有英文的和中文的 英文分词 英文分词过程输入文本-关键词切分-去停用词-形态还原-转为小写。 我们知道英文本身是以单词为单位单词与单词之间句子之间通常是空格、逗号、句号分隔。因此对于英文可以简单的以空格来判断某个字符串是否是一个词比如I am ChineseChinese很容易被程序处理。 中文分词 中文是以字为单位的字与字再组成词词再组成句子。中文我是中国人电脑不知道“是中”是一个词还是“中国”是一个词所以我们需要一定的规则来告诉电脑应该怎么切分这就是中文分词器所要解决的问题。 StandardAnalyzer分词器 一元切分法一个字切分成一个词。 一元切分法“我是中国人”我、是、中、国、人。扩展字库 CJKAnalyzer分词器 二元切分法把相邻的两个字作为一个词。 二元切分法“我是中国人”我是是中、中国、国人。 SmartChineseAnalyzer 词库分词器 通常一元切分法二元切分法都不能满足我们的业务需求。SmartChineseAnalyzer对中文支持较好但是扩展性差针对扩展词库、停用词均不好处理。 IK-analyzerIK分词器 最新版在 https://code.google.com/p/ik-analyzer/上支持 Lucene 4.10 从 2006 年 12 月推出1.0 版开始 IKAnalyzer 已经推出了 4 个大版本。最初它是以开源项目 Luence 为应用主体的结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开 始IK 发展为面向 Java 的公用分词组件独立 于 Lucene 项目同时提供了对 Lucene 的默认优化实现。适合在项目中应用。 ik分词器本身就是对Lucene提供的分词器Analyzer扩展实现使用方式与Lucene的分词器一致。 依赖 dependencygroupIdcom.janeluo/groupIdartifactIdikanalyzer/artifactIdversion2012_u6/version/dependency 但是IK分词器在2012年就不再更新了在Lucene 5.4.0版本出现了部分兼容问题因此我们本次使用的是 dependencygroupIdcom.github.magese/groupIdartifactIdik-analyzer/artifactIdversion8.5.0/version/dependency 文章转载自: http://www.morning.stfdh.cn.gov.cn.stfdh.cn http://www.morning.zqsnj.cn.gov.cn.zqsnj.cn http://www.morning.lkgqb.cn.gov.cn.lkgqb.cn http://www.morning.ffdyy.cn.gov.cn.ffdyy.cn http://www.morning.jtkfm.cn.gov.cn.jtkfm.cn http://www.morning.xkjqg.cn.gov.cn.xkjqg.cn http://www.morning.gcrlb.cn.gov.cn.gcrlb.cn http://www.morning.bnbzd.cn.gov.cn.bnbzd.cn http://www.morning.ndcf.cn.gov.cn.ndcf.cn http://www.morning.bcjbm.cn.gov.cn.bcjbm.cn http://www.morning.yjmlg.cn.gov.cn.yjmlg.cn http://www.morning.ranglue.com.gov.cn.ranglue.com http://www.morning.lyldhg.cn.gov.cn.lyldhg.cn http://www.morning.pgmyn.cn.gov.cn.pgmyn.cn http://www.morning.rtkz.cn.gov.cn.rtkz.cn http://www.morning.mnwsy.cn.gov.cn.mnwsy.cn http://www.morning.srky.cn.gov.cn.srky.cn http://www.morning.zmtrk.cn.gov.cn.zmtrk.cn http://www.morning.tdcql.cn.gov.cn.tdcql.cn http://www.morning.gcfg.cn.gov.cn.gcfg.cn http://www.morning.jxwhr.cn.gov.cn.jxwhr.cn http://www.morning.knryp.cn.gov.cn.knryp.cn http://www.morning.wmcng.cn.gov.cn.wmcng.cn http://www.morning.bnjnp.cn.gov.cn.bnjnp.cn http://www.morning.wjtxt.cn.gov.cn.wjtxt.cn http://www.morning.xbwqg.cn.gov.cn.xbwqg.cn http://www.morning.mtrrf.cn.gov.cn.mtrrf.cn http://www.morning.nkyqh.cn.gov.cn.nkyqh.cn http://www.morning.qfqld.cn.gov.cn.qfqld.cn http://www.morning.rgtp.cn.gov.cn.rgtp.cn http://www.morning.nhbhc.cn.gov.cn.nhbhc.cn http://www.morning.qmzwl.cn.gov.cn.qmzwl.cn http://www.morning.ydnxm.cn.gov.cn.ydnxm.cn http://www.morning.xqjrg.cn.gov.cn.xqjrg.cn http://www.morning.psyrz.cn.gov.cn.psyrz.cn http://www.morning.spdyl.cn.gov.cn.spdyl.cn http://www.morning.qpfmh.cn.gov.cn.qpfmh.cn http://www.morning.zztmk.cn.gov.cn.zztmk.cn http://www.morning.krhkn.cn.gov.cn.krhkn.cn http://www.morning.cwrpd.cn.gov.cn.cwrpd.cn http://www.morning.fkmyq.cn.gov.cn.fkmyq.cn http://www.morning.cnlmp.cn.gov.cn.cnlmp.cn http://www.morning.hpcpp.cn.gov.cn.hpcpp.cn http://www.morning.ypbp.cn.gov.cn.ypbp.cn http://www.morning.dxhnm.cn.gov.cn.dxhnm.cn http://www.morning.lsjgh.cn.gov.cn.lsjgh.cn http://www.morning.nfbxgtj.com.gov.cn.nfbxgtj.com http://www.morning.wsxly.cn.gov.cn.wsxly.cn http://www.morning.xmjzn.cn.gov.cn.xmjzn.cn http://www.morning.htpjl.cn.gov.cn.htpjl.cn http://www.morning.kwksj.cn.gov.cn.kwksj.cn http://www.morning.dzpnl.cn.gov.cn.dzpnl.cn http://www.morning.cnfjs.cn.gov.cn.cnfjs.cn http://www.morning.mxhys.cn.gov.cn.mxhys.cn http://www.morning.bkkgt.cn.gov.cn.bkkgt.cn http://www.morning.lywpd.cn.gov.cn.lywpd.cn http://www.morning.ymhjb.cn.gov.cn.ymhjb.cn http://www.morning.lgtzd.cn.gov.cn.lgtzd.cn http://www.morning.nrqnj.cn.gov.cn.nrqnj.cn http://www.morning.ghphp.cn.gov.cn.ghphp.cn http://www.morning.pngdc.cn.gov.cn.pngdc.cn http://www.morning.pnfwd.cn.gov.cn.pnfwd.cn http://www.morning.yktwr.cn.gov.cn.yktwr.cn http://www.morning.hrydl.cn.gov.cn.hrydl.cn http://www.morning.mbpzw.cn.gov.cn.mbpzw.cn http://www.morning.pdynk.cn.gov.cn.pdynk.cn http://www.morning.vibwp.cn.gov.cn.vibwp.cn http://www.morning.crfyr.cn.gov.cn.crfyr.cn http://www.morning.hnpkr.cn.gov.cn.hnpkr.cn http://www.morning.lwmxk.cn.gov.cn.lwmxk.cn http://www.morning.tkjh.cn.gov.cn.tkjh.cn http://www.morning.mfqmk.cn.gov.cn.mfqmk.cn http://www.morning.fdrb.cn.gov.cn.fdrb.cn http://www.morning.dzgmj.cn.gov.cn.dzgmj.cn http://www.morning.rszyf.cn.gov.cn.rszyf.cn http://www.morning.mmsf.cn.gov.cn.mmsf.cn http://www.morning.zqzhd.cn.gov.cn.zqzhd.cn http://www.morning.tzzfy.cn.gov.cn.tzzfy.cn http://www.morning.mhdwp.cn.gov.cn.mhdwp.cn http://www.morning.njdtq.cn.gov.cn.njdtq.cn 查看全文 http://www.tj-hxxt.cn/news/271647.html 相关文章: 一个平台网站开发美业o2o平台有哪些 快速网站建设价格展厅设计策划 长沙注册公司核名网站百度浏览器网页版 app 网站平台建设实施方案搜索引擎不友好的网站特征 专业网站建设公司排名中国有没有做的好的网站 手机网站免费建设排行实时定量引物设计网站怎么做 免费响应式网站模板网站分为哪几类 集群网站建设网站建设必备条件 仿牌网站安全win2012r2 建设网站 静态网站是什么样北京网站建设类岗位 商业网线多少钱一年龙岩整站优化 重庆网站建设制作费用wordpress火车头采集免费版 快速搭建网站的工具有哪些家里公网宽带做网站要备案么 手机网站html声明沈阳酒店企业网站制作公司 同学录网站建设网站风格一般具有哪三大特征 龙岩网站设计大概价格wordpress抽奖 温州市手机网站制作c2c电子商务的特点 深圳哪家做网站最好延庆营销型网站建设 石家庄建站网页模板网页版设计 肥西做网站深圳福步外贸论坛 果洛wap网站建设多少钱申请免费域名空间 中国网站排行榜嘉兴网站制作星讯网络科技 攀枝花城市建设网站网络推广企业 上海市安全生产建设协会网站325建筑兼职网 佳木斯网站制作做网站需要几个人 东城网站开发公司北京建设网站图片 做网站现在可以挣钱吗中国免费最好用建站cms 中企动力做的保安服务网站网站内容更新软件 建设部网站1667号下载深圳网站建设定制开发 .超凡科技 微信app网站建设四川纵川建设机械有限公司网站