当前位置: 首页 > news >正文 国内jsp网站有哪些哪些软件可以做网站设计 news 2025/11/3 12:49:09 国内jsp网站有哪些,哪些软件可以做网站设计,百度手机浏览器,网站没被收录怎么办目录 主要是包含搜推广系统的基本模块简单介绍#xff0c;另有一些流程、设计思想的分析。 搜索引擎 基本模块检索流程 查询分析查询纠错 广告引擎 基于标签倒排索引召回基于向量ANN检索召回打分机制#xff1a;非精确打分精准深度学习模型打分索引精简#xff1a;必要的…目录 主要是包含搜推广系统的基本模块简单介绍另有一些流程、设计思想的分析。 搜索引擎 基本模块检索流程 查询分析查询纠错 广告引擎 基于标签倒排索引召回基于向量ANN检索召回打分机制非精确打分精准深度学习模型打分索引精简必要的数据构建索引 推荐引擎 基本模块基于内容的召回基于协同过滤的召回 基于用户的协同过滤基于物品的协同过滤 混合召回分层打分 搜索引擎 搜索引擎的任务是从万亿级别的网页快速查找需要信息搜索引擎的检索技术是所有基于文本和关键词的检索系统都是可以学习和参考的。 整个检索系统会设计很多技术比较重要的有网页抓取、文本分析、检索模型、索引技术、链接分析、反作弊、云存储和云计算等非常复杂。 基本模块 整个检索系统可以按照功能结构分为3部分分别是爬虫系统、索引系统、检索系统。 爬虫系统要求能高效爬取数据并选用高效的存储如基于LSM的HBase高效的进行写入和读取。索引系统为相关文档建立索引主要包含3个阶段 1是文档的预处理包括相似网页去重、网页质量分析、分词处理这些工作。2是对文档进行反作弊的处理来避免一些作弊网页干扰搜索结果。3是生成索引生成过程包含三个步骤索引拆分、索引构建、索引更新 索引拆分文档数据量很大全部生成索引不太现实可以根据离线阶段的文档预处理区分文档质量比如高质量和低质量采用分层思想建立索引另外尽管区分高低质量数据量比较还是比较大需要索引分片。索引构建确认了索引的分片机制之后可以使用Map Reduce服务为每个索引分片生成对应的任务然后生成相应的倒排索引文件每个倒排索引代表一个分片支持加载到线上服务器。索引更新全量索引结合增量索引的机制完成索引更新一般使用滚动合并法更新。 检索系统查询分析、查询纠错、查询推荐、召回、打分选取TopK。 检索流程 查询分析 查询词是搜索引擎进行检索的最核心的信息但是有时候关键词会有错别字或者是含糊的不精准的或者查询的关键词不在建立的索引中如何保证能较准确的检索 查询分析就是通过输入的查询词理解用户意图进行查询词纠正以及对查询意图不明的查询词进行查询推荐可以分为三个粒度的分析 分词粒度分析最基础的查询分析根据查询词按照不同的粒度分词影响跟索引key匹配的效果中文搜索中特有的一个环节。一般采用混合粒度分词也就是标准的分词 整个查询词短语 来取匹配索引中的key比如疾风亦有归途会被分词 [疾风、归途、疾风亦有归途]属性分析数据的某些属性、权重需求分析语意级别的意图分析等 关键词位置信息关联性窗口 思考中文短语是如何检索的比如查询 “疾风亦有归途”在构建倒排索引的时候并没有把这个词当作key直接搜索倒排索引的时候就会找不到按照混合分词粒度会接着按照 [疾风归途] 检索如果只是简单地将这两个关键词检索出来的文档列表求交集合并那我们最终得到的结果并不一定会包含带有疾风亦有归途的文档比如搜索到了xxxx疾风来了xxxx很多字xxxx归途这种并不是期望的结果。 一种解决方案就是记录 关键词出现在文档中的位置取交集的时候判断一下两个关键词在同一个文档中的距离距离越小相关性就越小。比如就像包含两个关键词的内容划进去一个窗口窗口越小那么证明越相关。 思考如果是一个查询词被分为了三个关键词多个关键词使用查询窗口如何保证顺序 一种解决方案是两两进行多次计算最后累加得到一个值。 查询纠错 查询词有错别字使用查询纠错以及查询推荐优化搜索结果集查询纠错一般分为三个步骤 错误判断主要有下面两种方式 基于规则的错误判断一般根据人工打标的或者搜索日志进行数据挖掘得到常见的字典和混淆字典字典的结构可以是哈希表、前缀树等结构保证高效率检索。按照分词结果如果无法在字典查到或者出现在混淆字典里面那么就认为这个查询词是错误的需要进行下面的步骤。基于机器学习和语言模型的错误判断给查询的词一个上下文置信度置信度低的话判断为错误需要进行下面的步骤。 候选召回得到纠错集合中文的错误一般两种同音、形近根据多个同音、形近字典找出多个匹配的key查询返回候选集合。还有方式是根据编辑距离、根据机器学习等找出候选集的。打分排序 广告引擎 广告系统是一个典型的高并发低延迟系统请求量大对工程和算法有着强烈的依赖需要做到千人千面。广告系统中负责检索功能的广告引擎架构。 广告引擎处理一个广告请求的过程本质上就是根据用户的广告请求信息找出标签匹配的广告设置并将广告进行排序返回的过程。 广告基本可以分为两类搜索类广告、展示类广告 搜索类广告和搜索词关联性比较紧密类似上面的搜索展示类广告请求主要包含手机用户标签标签和广告匹配然后投放推送广告。 以展示类广告为例用户访问网页的时候这个时候期望在网页推送广告从用户访问的请求信息能拿到用户ID、网站地址、广告位置ID等接着广告系统服务端利用之前收集的用户信息标签喜好、年龄等从提前分析构建好的标签-具体广告信息设置key-value索引查出相应的广告然后排序返回之后就是监测广告的效果如展示、点击等埋点。 基本的流程和上面搜素引擎流程类似包含构建索引、召回候选集、排序返回TopK不同的是广告展示类没有关键词限制因此在构建倒排索引上更加灵活。 基于标签倒排索引召回 按照标签-广告文档构建倒排索引如某个广告设置的标签是 “地区开封”“年龄25-30”“性别男” 这些那么key就可以为每个标签项设置一个32为ID前xxx位表示标签名称定向类型后xxx为表示标签具体值这样上面的三个标签以及值分别对应3个32位的ID可以用作倒排索引的key。 思考所有的标签定向类型都作为key放入倒排索引吗 这样做会有个问题就是对于那些区分度不高的标签往往倒排索引挂的posting list都是很长的这样多个posting list取交集的时候效率会比较低。 因此一种解决方案是使用TF-IDF词频逆文档频率中计算IDF的方式找出区分度比较低的标签不将他们加入到倒排索引而是将这些标签以及下面的广告单独列表存储在倒排索引求完差集之后在使用这个 “过滤列表” 对检索结果进行结果过滤。 思考标签太多归并的效率低 按照上面的策略当前倒排索引key是区分度比较大的标签比如需要推送 “媒体类型APP” 和 “媒体类型PC” 两种标签下的广告并且这两种标签下的广告基本占了全部广告此时如果想要推送两种标签的广告归并的效率不是很高。 因此考虑到方案做一个标签树的结构将树的子节点是哪些具有少量广告的标签进一步划分父节点标签的广告集从而进行倒排索引分片。 下面就是 树 倒排索引 的结构我们根据广告请求上的标签就能快速定位要找的索引分片之后再查分片中的倒排索引就能缩小候选集。 思考如果使用媒体类型作为树形检索的节点PC网站和APP作为两个分叉并且允许广告主选择 “既在PC网站投放又在APP上投放”如果少量的广告主使用这种投放索引分片应该如何调整? 不变的策略每次都需要归并排序求交集。 或者是单独创建一个分片把归并的数据存起来不用每次时时归并。 基于向量ANN检索召回 使用广告引擎摆脱传统的标签模式可以将广告标识转为向量同时把用户兴趣也转化为一个向量这样使用ANN紧邻搜索找到最近的点当作结果返回就可以了。 对于传统标签模式是不具有语义上下文的比如 标签为 “喜欢篮球的人” 时如果一个用户身上的标签只有 “喜欢运动” ,那这个广告不会投放给这个用户会漏掉一些数据对于向量的ANN能弥补这个问题。 向量检索同时也会带来性能的压力可以使用聚类用于缩小候选集合减少计算量 倒排索引 乘积量化用于压缩存储空间 的实现方案优化向量检索的效率 参考往期博客ElasticSearch学习篇17_《检索技术核心20讲》最邻近检索-局部敏感哈希、乘积量化PQ思路-CSDN博客 打分机制非精准打分 精准的深度学习模型打分 相比于搜索引擎期望最后的TopK结果区别就是广告引擎期望最后的结果一条最相关的即可因此对于广告引擎的打分机制我们会使用复杂的深度学习模型来打分。 往往深度学习模型的任务会比较耗时而广告引擎又要求很高的性能因此打分之前的候选集不能太大为了解决这个问题使用非精准打分 深度学习模型精确打分机制进行打分合理的使用资源。 具体来说可以基于简单的机器学习模型如逻辑回归LR梯度提升决策树GBDT因子分解机FM等配合少量的特征完成这个非精准打分环节将候选广告的数量限制在几十的量级然后在使用深度学习模型来进行精准打分最后选出分数最高的广告。 索引精简必要的数据构建索引 一般某个广告的生命周期变化非常快比如广告会设置限定投放的时间段所以相比于搜索引擎的数据往往变化更快。 因此除了在线的召回、打分环节的检索效率之外广告业务的特点使得我们可以在离线的索引构建环节通过精简索引来优化效率比如将所有的广告不考虑时效性全部都加载到系统中进行检索然后后面再来一遍遍历过滤判断就会带来大量的判断开销。 因此一种解决思路就是把在线的开销挪到离线的索引构建环节这些过滤条件和广告定向类型标签并没有联系完全可以先把不相关的广告不构建索引这样在线召回、打分的候选集就会减少。 比如下面的经过一系列过滤条件最下层的索引是需要当前用到的这个过程是在离线环节完成的。 这种机制的前提是广告引擎需要提供实时高效的索引更新能力广告投放的数量不想搜索引擎网页数量那个量级一般可以全部加载到内存一般使用全量索引结合增量索引的更新机制就可以对线上的索引进行实时的更新了。 推荐引擎 不同于搜索、广告系统可以依靠关键词、广告主创建检索约束条件推荐系统的外界约束条件非常少比如只有一个下拉刷新的动作因此搜索引擎的灵活程度更高。 基本模块 用户画像离线挖掘用户的兴趣标签生成完整的用户画像不通的标签有不同的权重所有的权重会随着时间的变化衰减比如用户长时间没有这个行为标签就会逐渐弱化。文章画像给文章打标签除了提取文章的关键词还需要对文章的语义内容做分析比如文章分类、主题提取等推荐算法主要的算法基本为两类分别是基于统计的静态召回算法和个性化召回算法。 基于统计的静态召回算法比如热文推荐根据离线对文章的统计数据来进行推荐比如点击两、评论、收藏、收藏率等然后在线环节推给用户比较适合个性化召回算法结果不足时候的补充数据。个性化召回算法分为基于内容的召回、基于协同过滤的召回。 基于内容的召回 判断文章内容是否符合用户画像主要就是对比标签了参考广告引擎的基于标签倒排索引召回。 另外就是使用向量ANN将标签匹配改为高纬向量空间的最近邻检索弥补标签匹配检索可能漏掉数据的问题。 优缺点 基于协同过滤的召回 协同过滤是推荐系统中代表性方法协同过滤和基于内容的召回方法最大的区别就是不依赖内容本身来进行推荐而是基于大众用户和这篇文章的互动关系来推荐。 分为两大类 传统的基于数据统计的“Memory-based 的协同过滤算法”也叫做基于邻域的算法代表算法有基于用户的、基于物品的协同过滤。基于模型的 “Model-based的协同过滤算法” 基于用户的协同过滤 简单来说就是给用户A推送相似用户B的内容。 举个例子比如将用户A画像相似的用户B看过的文章也推荐给用户A主要操作是找到和用户A 画像相似的B、C、D、E等找出他们阅读的文章集合TopK推送给用户A。 具体的流程 对于寻找画像相似的用户集合可以将画像的各个标签值转为向量然后ANN搜索或者计算余弦相似度。然后从相似画像用户集合找出具体的文章然后按照用户喜欢的程度点赞、收藏、评论等加权计算找出TopK然后在推送。 问题计算找出画像相似用户会非常耗时如何解决 推荐系统有两种方案 相似计算放在离线环节离线为每个用户计算出一个推荐文章列表然后使用key-value数据库快速查询优点是比较简单效率比较高缺点是更新不够及时。实时阶段使用向量检索来近似地完成更新第一步寻找相似用户的时候先非精确检索借助 聚类 倒排 乘积量化 方案快速检索TopK然后将这些用户对应的文章列表加权打分排序等。优点时时性比较好缺点是检索过程比较复杂结果不够准确。 基于物品的协同过滤 简单来说就是给用户推送物品的A的相似物品B。 具体的流程 离线寻找相似物品根据上面矩阵将物品专为向量纬度按照用户各纬度值按照用户喜欢的数量作为值转为向量然后ANN搜索根据ItemID为key相似物品列表为posting list。在线推送只要是用户看过的key就查倒排列表然后归并计算TopK。 混合召回分层打分 采用多种方式 首先每一个召回通路都会使用自己的非精准打分算法截取千级别之内的候选集。然后推荐引擎会合并这多个召回通路截取的几千个结果也就是使用简单的机器学习模型进行非精准打分选出最好的上百个结果。最后推荐引擎会使用精准的深度学习模型选出最好的几十个结果返回给用户。这就是用户看到的最终的推荐结果了。 文章转载自: http://www.morning.nkpls.cn.gov.cn.nkpls.cn http://www.morning.trjdr.cn.gov.cn.trjdr.cn http://www.morning.gtdf.cn.gov.cn.gtdf.cn http://www.morning.lzph.cn.gov.cn.lzph.cn http://www.morning.rjrlx.cn.gov.cn.rjrlx.cn http://www.morning.yydeq.cn.gov.cn.yydeq.cn http://www.morning.rhzzf.cn.gov.cn.rhzzf.cn http://www.morning.pjbhk.cn.gov.cn.pjbhk.cn http://www.morning.grxsc.cn.gov.cn.grxsc.cn http://www.morning.mhfbp.cn.gov.cn.mhfbp.cn http://www.morning.xhjjs.cn.gov.cn.xhjjs.cn http://www.morning.qjrjs.cn.gov.cn.qjrjs.cn http://www.morning.tfrlj.cn.gov.cn.tfrlj.cn http://www.morning.wgbsm.cn.gov.cn.wgbsm.cn http://www.morning.xqkcs.cn.gov.cn.xqkcs.cn http://www.morning.zthln.cn.gov.cn.zthln.cn http://www.morning.gpnwq.cn.gov.cn.gpnwq.cn http://www.morning.scrnt.cn.gov.cn.scrnt.cn http://www.morning.elsemon.com.gov.cn.elsemon.com http://www.morning.cczzyy.com.gov.cn.cczzyy.com http://www.morning.mrfnj.cn.gov.cn.mrfnj.cn http://www.morning.zcnfm.cn.gov.cn.zcnfm.cn http://www.morning.snmsq.cn.gov.cn.snmsq.cn http://www.morning.mplb.cn.gov.cn.mplb.cn http://www.morning.dbrnl.cn.gov.cn.dbrnl.cn http://www.morning.nnjq.cn.gov.cn.nnjq.cn http://www.morning.kzhxy.cn.gov.cn.kzhxy.cn http://www.morning.twdkt.cn.gov.cn.twdkt.cn http://www.morning.dcdhj.cn.gov.cn.dcdhj.cn http://www.morning.qfrmy.cn.gov.cn.qfrmy.cn http://www.morning.tfwg.cn.gov.cn.tfwg.cn http://www.morning.bflwj.cn.gov.cn.bflwj.cn http://www.morning.llfwg.cn.gov.cn.llfwg.cn http://www.morning.pcshb.cn.gov.cn.pcshb.cn http://www.morning.rwlns.cn.gov.cn.rwlns.cn http://www.morning.ykmg.cn.gov.cn.ykmg.cn http://www.morning.jnrry.cn.gov.cn.jnrry.cn http://www.morning.coatingonline.com.cn.gov.cn.coatingonline.com.cn http://www.morning.wqbzt.cn.gov.cn.wqbzt.cn http://www.morning.ddtdy.cn.gov.cn.ddtdy.cn http://www.morning.rrbhy.cn.gov.cn.rrbhy.cn http://www.morning.ljpqy.cn.gov.cn.ljpqy.cn http://www.morning.tzzxs.cn.gov.cn.tzzxs.cn http://www.morning.brzlp.cn.gov.cn.brzlp.cn http://www.morning.tstwx.cn.gov.cn.tstwx.cn http://www.morning.mcjxq.cn.gov.cn.mcjxq.cn http://www.morning.fkmrj.cn.gov.cn.fkmrj.cn http://www.morning.nhdw.cn.gov.cn.nhdw.cn http://www.morning.mllmm.cn.gov.cn.mllmm.cn http://www.morning.jzbjx.cn.gov.cn.jzbjx.cn http://www.morning.yhplt.cn.gov.cn.yhplt.cn http://www.morning.yrxcn.cn.gov.cn.yrxcn.cn http://www.morning.mkhwx.cn.gov.cn.mkhwx.cn http://www.morning.nmfml.cn.gov.cn.nmfml.cn http://www.morning.ltxgk.cn.gov.cn.ltxgk.cn http://www.morning.iknty.cn.gov.cn.iknty.cn http://www.morning.rknjx.cn.gov.cn.rknjx.cn http://www.morning.cbczs.cn.gov.cn.cbczs.cn http://www.morning.spwm.cn.gov.cn.spwm.cn http://www.morning.pqndg.cn.gov.cn.pqndg.cn http://www.morning.qbmpb.cn.gov.cn.qbmpb.cn http://www.morning.jrslj.cn.gov.cn.jrslj.cn http://www.morning.fwmln.cn.gov.cn.fwmln.cn http://www.morning.xqmd.cn.gov.cn.xqmd.cn http://www.morning.ssqrd.cn.gov.cn.ssqrd.cn http://www.morning.wpqwk.cn.gov.cn.wpqwk.cn http://www.morning.xsqbx.cn.gov.cn.xsqbx.cn http://www.morning.xlpdm.cn.gov.cn.xlpdm.cn http://www.morning.homayy.com.gov.cn.homayy.com http://www.morning.dbphz.cn.gov.cn.dbphz.cn http://www.morning.tqdlk.cn.gov.cn.tqdlk.cn http://www.morning.cklgf.cn.gov.cn.cklgf.cn http://www.morning.drytb.cn.gov.cn.drytb.cn http://www.morning.cftkz.cn.gov.cn.cftkz.cn http://www.morning.tsdjj.cn.gov.cn.tsdjj.cn http://www.morning.ngmjn.cn.gov.cn.ngmjn.cn http://www.morning.tztgq.cn.gov.cn.tztgq.cn http://www.morning.qbzfp.cn.gov.cn.qbzfp.cn http://www.morning.pxmyw.cn.gov.cn.pxmyw.cn http://www.morning.rgpy.cn.gov.cn.rgpy.cn 查看全文 http://www.tj-hxxt.cn/news/268909.html 相关文章: wordpress怎么上传自己的网站建筑网站翻译编辑 专业的深圳网站设计滁州市住房城乡建设部网站 做企业网站不好混广州百度seo公司 网站建设项目结构分析建筑公司网址 phpcms 友情链接 网站名称字数广州白云会议中心分析 网站推广怎样做灵犀科技 网站开发佼佼者 做跨境的网站阿里巴巴国际站买家入口 怎样做免费企业网站中信建设有限责任公司总监 网站方案怎么写公司网站 个人备案 做互联网网站待遇公司网站ICP怎么备案呢 怎么制作网站教程电商如何做网站家具导购 外国网站手机dns爬取旅游网站数据并进行分析 流量型网站addthis wordpress 网站开发所需的技术中国纪检监察报地址 北京做网站公司有哪些买域名后怎么做网站 怎么样让网站宣传自己中国房地产网站 服务器网站搭建教程wordpress xml-rpc 哈尔滨 微网站设计免费网站建设平台 iis 北京网站报价wordpress用户增加插件 做金融量化的网站手机网页版登录入口 php网站建设实例番禺网站建设怎么样 顺德网站建设7starry办公门户网站模板 视频作品投票网站如何做徐州做外贸网站 网络销售是做网站推广建设信息港查询 帝国cms建网站专门教人做点心的网站 新锐媒体网站建设方案网站中文域名 wordpress视屏站网站开发项目需要哪些人员策划师 花都网站推广北京和隆优化招聘 网站运营学习wordpress登录于未登录菜单 帮别人设计网站的网站吗百度site app网站添加到网站首页源文件中的代码是哪些?