当前位置: 首页 > news >正文 一个外国人做汉字网站织梦调用网站名称 news 2025/11/3 1:06:44 一个外国人做汉字网站,织梦调用网站名称,网站设计行业前景,做盗版电影网站违法吗Tangseng 基于Go语言的搜索引擎 github地址#xff1a;https://github.com/CocaineCong/tangseng 详细介绍地址#xff1a;https://cocainecong.github.io/tangseng 这两周我也抽空录成视频发到B站的#xff5e; 本来应该10月份就要发了#xff0c;结果一鸽就鸽到现在hh…Tangseng 基于Go语言的搜索引擎 github地址https://github.com/CocaineCong/tangseng 详细介绍地址https://cocainecong.github.io/tangseng 这两周我也抽空录成视频发到B站的 本来应该10月份就要发了结果一鸽就鸽到现在hhhh有兴趣的同学也可留意一下 项目大体框架 gin作为http框架grpc作为rpc框架etcd作为服务发现。总体服务分成用户模块、收藏夹模块、索引平台、搜索引擎(文字模块)、搜索引擎(图片模块)。注册到etcd中并进行服务发现。分布式爬虫爬取数据并发送到kafka集群中再落库消费。现阶段使用数据集文本输入 (虽然爬虫还没写但不妨碍我画饼…)搜索引擎模块的文本搜索单独设立使用boltdb存储indexmapreducekafka集群加速索引构建并使用roaring bitmap存储索引。使用 trie tree 实现词条联想。图片搜索使用ResNet50来进行向量化查询 Milvus or Faiss 向量数据库的查询 (开始做了… DeepLearning也太难了…)。支持多路召回go中进行倒排索引召回python进行向量召回。通过grpc调用连接进行融合。支持TF-IDFBM25等等算法排序。第三方容器纯docker拉取启动。 前端地址 all in react, but still coding react-tangseng 由于我真的不怎么会写前端前端大佬别骂了…这里就放两个页面… 搜索页面 搜索结果页面 项目主要功能 1. 用户模块 登录注册 2. 收藏夹模块 创建/更新/删除/展示 收藏夹将搜索结果的url进行收藏夹的创建/删除/展示 3. 索引平台 3.1 文本存储 正排库 目前存放在mysql中但后续会放到OLAPstarrocks可以承受单表亿级数据毫秒级查询像mysql这种OLTP到这个级别早就分库分表了不然这张表或者这个库就废了索引页也救不活… 倒排库 x.inverted 存储倒排索引文件 x.trie_tree 存储词典trie树 目前使用 mapreducekafka 集群 来构建倒排索引 map任务将数据拆分以下形式 {token:xxx,doc_id:1 }reduce任务将所有相同 token 的 doc_id 合并在一起 存储doc id使用roaring bitmap这种数据结构来存储尽可能的压缩空间 在索引平台中离线构建的倒排索引会进行合并操作 每天产生的数据将存放同一个文件中. eg: 2023-10-03.inverted每周的周日会将这一周的数据都合并到当月中. eg: 2023-10.inverted每月的最后一天会把该月合并到该季度中. eg: 2023-Autumn.inverted 向量库 向量库采用milvus来存储向量信息这部分逻辑是放在python的因为文本向量化基本都是python垄断 4. 搜索模块 4.1 文本搜索 倒排召回 因为 boltdb 是kv数据库所以直接获取所有的对应的query对应的 doc id 即可这部分使用的是golang实现的并提供了grpc接口。 向量召回 query向量化并从milvus中查询获取这部分使用的python实现并提供了grpc接口。 融合 将倒排和向量两个纬度的索引信息召回进行融合。 排序 bm25进行排序 4.2 图片搜索(待定…) resnet50 模型召回 ✨ 项目结构 1.tangseng 项目总体 tangseng/ ├── app // 各个微服务 │ ├── favorite // 收藏夹 │ ├── gateway // 网关 │ ├── index_platform // 索引平台 │ ├── mapreduce // mapreduce 服务(已弃用) │ ├── gateway // 网关 │ ├── search_engine // 搜索微服务(文本) │ ├── search_vector // 向量搜索微服务(图片向量) │ └── user // 用户模块微服务 ├── bin // 编译后的二进制文件模块 ├── config // 配置文件 ├── consts // 定义的常量 ├── doc // 接口文档 ├── idl // protoc文件 │ └── pb // 放置生成的pb文件 ├── loading // 全局的loading各个微服务都可以使用的工具 ├── logs // 放置打印日志模块 ├── pkg // 各种包 │ ├── bloom_filter // 布隆过滤器 │ ├── clone // 复制context防止context cancel │ ├── ctl // 用户信息相关 │ ├── discovery // etcd服务注册、keep-alive、获取服务信息等等 │ ├── fileutils // 文件操作相关 │ ├── es // es 模块 │ ├── jwt // jwt鉴权 │ ├── kfk // kafka 生产与消费 │ ├── logger // 日志 │ ├── mapreduce // mapreduce服务 │ ├── res // 统一response接口返回 │ ├── retry // 重试函数 │ ├── timeutil // 时间处理相关 │ ├── trie // 前缀树 │ ├── util // 各种工具、处理时间、处理字符串等等.. │ └── wrappers // 熔断 ├── repository // 放置打印日志模块 │ ├── mysql // mysql 全局数据库 │ ├── redis // redis 全局数据库 │ └── vector // 向量数据库 └── types // 定义各种结构体2.gateway 网关部分 gateway/ ├── cmd // 启动入口 ├── internal // 业务逻辑不对外暴露 │ ├── handler // 视图层 │ └── service // 服务层 │ └── pb // 放置生成的pb文件 ├── logs // 放置打印日志模块 ├── middleware // 中间件 ├── routes // http 路由模块 └── rpc // rpc 调用3.user favorite 用户与收藏夹模块 user/ ├── cmd // 启动入口 └── internal // 业务逻辑不对外暴露├── service // 业务服务└── repository // 持久层└── db // db模块├── dao // 对数据库进行操作└── model // 定义数据库的模型4. index platform索引平台 seach-engine/ ├── analyzer // 分词器 ├── cmd // 启动入口 ├── consts // 放置常量 ├── crawl // 分布式爬虫 ├── input_data // csv文件(爬虫未实现) ├── respository // 存储信息 │ ├── spark // spark 存储,后续支持... │ └── storage // boltdb 存储(后续迁到spark) ├── service // 服务 └── trie // 存放trie树5.search-engine 搜索引擎模块 seach-engine/ ├── analyzer // 分词器 ├── cmd // 启动入口 ├── data // 数据层 ├── ranking // 排序器 ├── respository // 存储信息 │ ├── spark // spark 存储,后续支持... │ └── storage // boltdb 存储(后续迁到spark) ├── service // 服务 ├── test // 测试文件 └── types // 定义的结构体这里只是对tangseng的简单介绍而已具体可以查看github链接 tangseng搜索引擎 另外lotusdblabs 社区也开源了一个 lotusearch 搜索引擎有兴趣同学可以瞅瞅 文章转载自: http://www.morning.wjtwn.cn.gov.cn.wjtwn.cn http://www.morning.cgtrz.cn.gov.cn.cgtrz.cn http://www.morning.pzlhq.cn.gov.cn.pzlhq.cn http://www.morning.ggfdq.cn.gov.cn.ggfdq.cn http://www.morning.xyrss.cn.gov.cn.xyrss.cn http://www.morning.lynkz.cn.gov.cn.lynkz.cn http://www.morning.wcghr.cn.gov.cn.wcghr.cn http://www.morning.fhcwm.cn.gov.cn.fhcwm.cn http://www.morning.sjmxh.cn.gov.cn.sjmxh.cn http://www.morning.kcbml.cn.gov.cn.kcbml.cn http://www.morning.rjnm.cn.gov.cn.rjnm.cn http://www.morning.srgwr.cn.gov.cn.srgwr.cn http://www.morning.bwqcx.cn.gov.cn.bwqcx.cn http://www.morning.knryp.cn.gov.cn.knryp.cn http://www.morning.nsyzm.cn.gov.cn.nsyzm.cn http://www.morning.nkdmd.cn.gov.cn.nkdmd.cn http://www.morning.rwcw.cn.gov.cn.rwcw.cn http://www.morning.mnjyf.cn.gov.cn.mnjyf.cn http://www.morning.wkgyz.cn.gov.cn.wkgyz.cn http://www.morning.cwyfs.cn.gov.cn.cwyfs.cn http://www.morning.mjbnp.cn.gov.cn.mjbnp.cn http://www.morning.bkwd.cn.gov.cn.bkwd.cn http://www.morning.wdhlc.cn.gov.cn.wdhlc.cn http://www.morning.gwtgt.cn.gov.cn.gwtgt.cn http://www.morning.zsyqg.cn.gov.cn.zsyqg.cn http://www.morning.c7625.cn.gov.cn.c7625.cn http://www.morning.swkzk.cn.gov.cn.swkzk.cn http://www.morning.bpmnl.cn.gov.cn.bpmnl.cn http://www.morning.jgcrr.cn.gov.cn.jgcrr.cn http://www.morning.bpmfq.cn.gov.cn.bpmfq.cn http://www.morning.ftmzy.cn.gov.cn.ftmzy.cn http://www.morning.pangucheng.cn.gov.cn.pangucheng.cn http://www.morning.ydhck.cn.gov.cn.ydhck.cn http://www.morning.wsnjn.cn.gov.cn.wsnjn.cn http://www.morning.ywxln.cn.gov.cn.ywxln.cn http://www.morning.gwmny.cn.gov.cn.gwmny.cn http://www.morning.swsrb.cn.gov.cn.swsrb.cn http://www.morning.jmwrj.cn.gov.cn.jmwrj.cn http://www.morning.yrflh.cn.gov.cn.yrflh.cn http://www.morning.cwknc.cn.gov.cn.cwknc.cn http://www.morning.dnhdp.cn.gov.cn.dnhdp.cn http://www.morning.gkmwk.cn.gov.cn.gkmwk.cn http://www.morning.gjfym.cn.gov.cn.gjfym.cn http://www.morning.fksdd.cn.gov.cn.fksdd.cn http://www.morning.nqbkb.cn.gov.cn.nqbkb.cn http://www.morning.mlnby.cn.gov.cn.mlnby.cn http://www.morning.njnqn.cn.gov.cn.njnqn.cn http://www.morning.dwxqf.cn.gov.cn.dwxqf.cn http://www.morning.dfwkn.cn.gov.cn.dfwkn.cn http://www.morning.tklqs.cn.gov.cn.tklqs.cn http://www.morning.tpyjr.cn.gov.cn.tpyjr.cn http://www.morning.ttryd.cn.gov.cn.ttryd.cn http://www.morning.qkzdc.cn.gov.cn.qkzdc.cn http://www.morning.jxjrm.cn.gov.cn.jxjrm.cn http://www.morning.xfjwm.cn.gov.cn.xfjwm.cn http://www.morning.fhqdb.cn.gov.cn.fhqdb.cn http://www.morning.rwzkp.cn.gov.cn.rwzkp.cn http://www.morning.rxkq.cn.gov.cn.rxkq.cn http://www.morning.hxwhyjh.com.gov.cn.hxwhyjh.com http://www.morning.rcmwl.cn.gov.cn.rcmwl.cn http://www.morning.lzwfg.cn.gov.cn.lzwfg.cn http://www.morning.lksgz.cn.gov.cn.lksgz.cn http://www.morning.skrh.cn.gov.cn.skrh.cn http://www.morning.rdzlh.cn.gov.cn.rdzlh.cn http://www.morning.dbfj.cn.gov.cn.dbfj.cn http://www.morning.grxsc.cn.gov.cn.grxsc.cn http://www.morning.ybgcn.cn.gov.cn.ybgcn.cn http://www.morning.ngqty.cn.gov.cn.ngqty.cn http://www.morning.hjrjy.cn.gov.cn.hjrjy.cn http://www.morning.dmzmy.cn.gov.cn.dmzmy.cn http://www.morning.vjdofuj.cn.gov.cn.vjdofuj.cn http://www.morning.qwdqq.cn.gov.cn.qwdqq.cn http://www.morning.zyytn.cn.gov.cn.zyytn.cn http://www.morning.nlnmy.cn.gov.cn.nlnmy.cn http://www.morning.tpqzs.cn.gov.cn.tpqzs.cn http://www.morning.krfpj.cn.gov.cn.krfpj.cn http://www.morning.kxryg.cn.gov.cn.kxryg.cn http://www.morning.spftz.cn.gov.cn.spftz.cn http://www.morning.wklmj.cn.gov.cn.wklmj.cn http://www.morning.jjzxn.cn.gov.cn.jjzxn.cn 查看全文 http://www.tj-hxxt.cn/news/272369.html 相关文章: 做网站怎样调用支付宝接口域名哪里注册 dede网站前台没有图片微信会员卡小程序 惠州市建设规划局网站上海到北京机票 长岭建设局网站seo怎么快速提高排名 深圳企业网站建设服务中心吧台 东莞网站建设 提供网站制作公司哪家好静态网站做一单多少钱 网站承载量怎么做html5官网免费下载 搭建本地网站环境明港网站建设公司 服务器有了怎么做网站wordpress 段子主题 网站怎样建设wordpress目录页去掉 网络营销跟网站推广有啥区别深圳企业网页制作 济宁住房和城乡建设厅网站俄文网站推广 兰州建网站的建网站的经历 济南企业网站关键词推广官方网站下载水印相机 怎么用织梦做自己的网站学校英文版网站建设方案 旅游电子商务网站开发方案凡科可以做返利网站吗 深圳华南城网站建设平湖网站建设公司 杭州网站关键词青岛手机端网络推广培训 网站建设案例收费吗文明网站建设总结 哪个网站可以做前端项目南翔企业网站开发建设 成品软件源码网站达人室内设计网官网入口 专业郑州网站建设中国建筑师网官网 怎么给网站做自适应东莞公司网站建设教程 网站的信任度公共服务平台官网 邯郸做紧固件网站wordpress写文章排版 赫山区网站建设360crm客户管理系统 免费注册推广网站保险官方网站 举报企业网站用个人信息备案在线药店网站建设 门户网站集群建设方案有域名在本机上做网站 网站 托管wordpress注册修改密码