网站设计和营销,软文推广公司有哪些,广州越秀区网站建设,物流网站建设合同范本目录
1.DSL查询文档
1.1.DSL查询分类
1.2.全文检索查询
1.2.1.使用场景
1.2.2.基本语法
1.2.3.示例
1.2.4.总结
1.3.精准查询
1.3.1.term查询
1.3.2.range查询
1.3.3.总结
1.4.地理坐标查询
1.4.1.矩形范围查询
1.4.2.附近查询
1.5.复合查询
1.5.1.相关性算分 …目录
1.DSL查询文档
1.1.DSL查询分类
1.2.全文检索查询
1.2.1.使用场景
1.2.2.基本语法
1.2.3.示例
1.2.4.总结
1.3.精准查询
1.3.1.term查询
1.3.2.range查询
1.3.3.总结
1.4.地理坐标查询
1.4.1.矩形范围查询
1.4.2.附近查询
1.5.复合查询
1.5.1.相关性算分
1.5.2.算分函数查询
1语法说明
2示例
3小结
1.5.3.布尔查询
1语法示例
2示例
3小结
1.DSL查询文档
elasticsearch的查询依然是基于JSON风格的DSL来实现的。
1.1.DSL查询分类
Elasticsearch提供了基于JSON的DSLDomain Specific Language来定义查询。常见的查询类型包括 查询所有查询出所有数据一般测试用。例如match_all 全文检索full text查询利用分词器对用户输入内容分词然后去倒排索引库中匹配。例如 match_query multi_match_query 精确查询根据精确词条值查找数据一般是查找keyword、数值、日期、boolean等类型字段。例如 ids range term 地理geo查询根据经纬度查询。例如 geo_distance geo_bounding_box 复合compound查询复合查询可以将上述各种查询条件组合起来合并查询条件。例如 bool function_score
查询的语法基本一致
GET /indexName/_search
{query: {查询类型: {查询条件: 条件值}}
}
我们以查询所有为例其中 查询类型为match_all 没有查询条件
// 查询所有
GET /indexName/_search
{query: {match_all: {}}
}
其它查询无非就是查询类型、查询条件的变化。
1.2.全文检索查询
1.2.1.使用场景
全文检索查询的基本流程如下 对用户搜索的内容做分词得到词条 根据词条去倒排索引库中匹配得到文档id 根据文档id找到文档返回给用户
比较常用的场景包括 商城的输入框搜索 百度输入框搜索
例如京东 因为是拿着词条去匹配因此参与搜索的字段也必须是可分词的text类型的字段。
1.2.2.基本语法
常见的全文检索查询包括 match查询单字段查询 multi_match查询多字段查询任意一个字段符合条件就算符合查询条件
match查询语法如下
GET /indexName/_search
{query: {match: {FIELD: TEXT}}
}
mulit_match语法如下
GET /indexName/_search
{query: {multi_match: {query: TEXT,fields: [FIELD1, FIELD12]}}
}1.2.3.示例
match查询示例 multi_match查询示例 可以看到两种查询结果是一样的为什么
因为我们将brand、name、business值都利用copy_to复制到了all字段中。因此你根据三个字段搜索和根据all字段搜索效果当然一样了。
但是搜索字段越多对查询性能影响越大因此建议采用copy_to然后单字段查询的方式。
1.2.4.总结
match和multi_match的区别是什么 match根据一个字段查询 multi_match根据多个字段查询参与查询字段越多查询性能越差
1.3.精准查询
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有 term根据词条精确值查询 range根据值的范围查询
1.3.1.term查询
因为精确查询的字段搜是不分词的字段因此查询的条件也必须是不分词的词条。查询时用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多反而搜索不到数据。
语法说明
// term查询
GET /indexName/_search
{query: {term: {FIELD: {value: VALUE}}}
}示例
当我搜索的是精确词条时能正确查询出结果 但是当我搜索的内容不是词条而是多个词语形成的短语时反而搜索不到 1.3.2.range查询
范围查询一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。
基本语法
// range查询
GET /indexName/_search
{query: {range: {FIELD: {gte: 10, // 这里的gte代表大于等于gt则代表大于lte: 20 // lte代表小于等于lt则代表小于}}}
}示例 1.3.3.总结
精确查询常见的有哪些 term查询根据词条精确匹配一般搜索keyword类型、数值类型、布尔类型、日期类型字段 range查询根据数值范围查询可以是数值、日期的范围
1.4.地理坐标查询
所谓的地理坐标查询其实就是根据经纬度查询官方文档Geo queries | Elasticsearch Guide [8.8] | Elastic
常见的使用场景包括 携程搜索我附近的酒店 滴滴搜索我附近的出租车 微信搜索我附近的人
附近的酒店 附近的车 1.4.1.矩形范围查询
矩形范围查询也就是geo_bounding_box查询查询坐标落在某个矩形范围的所有文档 查询时需要指定矩形的左上、右下两个点的坐标然后画出一个矩形落在该矩形内的都是符合条件的点。
语法如下
// geo_bounding_box查询
GET /indexName/_search
{query: {geo_bounding_box: {FIELD: {top_left: { // 左上点lat: 31.1,lon: 121.5},bottom_right: { // 右下点lat: 30.9,lon: 121.7}}}}
}这种并不符合“附近的人”这样的需求所以我们就不做了。
1.4.2.附近查询
附近查询也叫做距离查询geo_distance查询到指定中心点小于某个距离值的所有文档。
换句话来说在地图上找一个点作为圆心以指定距离为半径画一个圆落在圆内的坐标都算符合条件 语法说明
// geo_distance 查询
GET /indexName/_search
{query: {geo_distance: {distance: 15km, // 半径FIELD: 31.21,121.5 // 圆心}}
}示例
我们先搜索陆家嘴附近15km的酒店 发现共有47家酒店。
然后把半径缩短到3公里 可以发现搜索到的酒店数量减少到了5家。
1.5.复合查询
复合compound查询复合查询可以将其它简单查询组合起来实现更复杂的搜索逻辑。常见的有两种 fuction score算分函数查询可以控制文档相关性算分控制文档排名 bool query布尔查询利用逻辑关系组合多个其它的查询实现复杂搜索
1.5.1.相关性算分
当我们利用match查询时文档结果会根据与搜索词条的关联度打分_score返回结果时按照分值降序排列。
例如我们搜索 虹桥如家结果如下
[{_score : 17.850193,_source : {name : 虹桥如家酒店真不错,}},{_score : 12.259849,_source : {name : 外滩如家酒店真不错,}},{_score : 11.91091,_source : {name : 迪士尼如家酒店真不错,}}
]在elasticsearch中早期使用的打分算法是TF-IDF算法公式如下 在后来的5.1版本升级中elasticsearch将算法改进为BM25算法公式如下 TF-IDF算法有一各缺陷就是词条频率越高文档得分也会越高单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限曲线更加平滑 小结elasticsearch会根据词条和文档的相关度做打分算法由两种 TF-IDF算法 BM25算法elasticsearch5.1版本后采用的算法
1.5.2.算分函数查询
根据相关度打分是比较合理的需求但合理的不一定是产品经理需要的。
以百度为例你搜索的结果中并不是相关度越高排名越靠前而是谁掏的钱多排名就越靠前。如图 要想认为控制相关性算分就需要利用elasticsearch中的function score 查询了。
1语法说明 function score 查询中包含四部分内容 原始查询条件query部分基于这个条件搜索文档并且基于BM25算法给文档打分原始算分query score) 过滤条件filter部分符合该条件的文档才会重新算分 算分函数符合filter条件的文档要根据这个函数做运算得到的函数算分function score有四种函数 weight函数结果是常量 field_value_factor以文档中的某个字段值作为函数结果 random_score以随机数作为函数结果 script_score自定义算分函数算法 运算模式算分函数的结果、原始查询的相关性算分两者之间的运算方式包括 multiply相乘 replace用function score替换query score 其它例如sum、avg、max、min
function score的运行流程如下 1根据原始条件查询搜索文档并且计算相关性算分称为原始算分query score 2根据过滤条件过滤文档 3符合过滤条件的文档基于算分函数运算得到函数算分function score 4将原始算分query score和函数算分function score基于运算模式做运算得到最终结果作为相关性算分。
因此其中的关键点是 过滤条件决定哪些文档的算分被修改 算分函数决定函数算分的算法 运算模式决定最终算分结果
2示例
需求给“如家”这个品牌的酒店排名靠前一些
翻译一下这个需求转换为之前说的四个要点 原始条件不确定可以任意变化 过滤条件brand 如家 算分函数可以简单粗暴直接给固定的算分结果weight 运算模式比如求和
因此最终的DSL语句如下
GET /hotel/_search
{query: {function_score: {query: { .... }, // 原始查询可以是任意条件functions: [ // 算分函数{filter: { // 满足的条件品牌必须是如家term: {brand: 如家}},weight: 2 // 算分权重为2}],boost_mode: sum // 加权模式求和}}
} 测试在未添加算分函数时如家得分如下 添加了算分函数后如家得分就提升了 3小结
function score query定义的三要素是什么 过滤条件哪些文档要加分 算分函数如何计算function score 加权方式function score 与 query score如何运算
1.5.3.布尔查询
布尔查询是一个或多个查询子句的组合每一个子句就是一个子查询。子查询的组合方式有 must必须匹配每个子查询类似“与” should选择性匹配子查询类似“或” must_not必须不匹配不参与算分类似“非” filter必须匹配不参与算分
比如在搜索酒店时除了关键字搜索外我们还可能根据品牌、价格、城市等字段做过滤 每一个不同的字段其查询的条件、方式都不一样必须是多个不同的查询而要组合这些查询就必须用bool查询了。
需要注意的是搜索时参与打分的字段越多查询的性能也越差。因此这种多条件查询时建议这样做 搜索框的关键字搜索是全文检索查询使用must查询参与算分 其它过滤条件采用filter查询。不参与算分
1语法示例
GET /hotel/_search
{query: {bool: {must: [{term: {city: 上海 }}],should: [{term: {brand: 皇冠假日 }},{term: {brand: 华美达 }}],must_not: [{ range: { price: { lte: 500 } }}],filter: [{ range: {score: { gte: 45 } }}]}}
}2示例
需求搜索名字包含“如家”价格不高于400在坐标31.21,121.5周围10km范围内的酒店。
分析 名称搜索属于全文检索查询应该参与算分。放到must中 价格不高于400用range查询属于过滤条件不参与算分。放到must_not中 周围10km范围内用geo_distance查询属于过滤条件不参与算分。放到filter中 3小结
bool查询有几种逻辑关系 must必须匹配的条件可以理解为“与” should选择性匹配的条件可以理解为“或” must_not必须不匹配的条件不参与打分 filter必须匹配的条件不参与打分