免费信息推广网站,一键生成ppt,网站设计网站开发优化,抖音带运营给客户带来怎么样收益文章目录 1. 监控指标采集1.1 部署elasticsearch_exporter1.2 prometheus采集elasticsearch_exporter的暴露指标1.3 promethues配置告警规则或者配置grafana大盘 2. 核心告警指标2.1 es核心指标2.2 es容量模型建议 3. 参考文章 探讨es的监控数据采集方式以及需要关注的核心指标… 文章目录 1. 监控指标采集1.1 部署elasticsearch_exporter1.2 prometheus采集elasticsearch_exporter的暴露指标1.3 promethues配置告警规则或者配置grafana大盘 2. 核心告警指标2.1 es核心指标2.2 es容量模型建议 3. 参考文章 探讨es的监控数据采集方式以及需要关注的核心指标便于日常生产进行监控和巡检。 1. 监控指标采集
监控指标的采集方式使用promethues elasticsearch_exporter的方式采集es的指标并通过promethues协议暴露出来。本文探讨es的采集监控方式以及常用核心监控告警配置。
1.1 部署elasticsearch_exporter
elasticsearch_exporter的 下载地址 选择合适的版本下载并解压使用如下方法启动。
# 不带鉴权方式
./elasticsearch_exporter --web.listen-address:9114 --es.urihttp://127.0.0.1:9200
# 带鉴权方式
./elasticsearch_exporter --web.listen-address:9114 --es.urihttp://admin:pass127.0.0.1:9200确定metrics指标暴露出来后就可以通过prometheus配置target进行指标采集
# 通过promethues协议暴露指标
curl http://localhost:9114/metrics1.2 prometheus采集elasticsearch_exporter的暴露指标
配置prometheus的指标采集任务 - job_name: esstatic_configs:- targets: [172.19.0.2:9114,172.19.0.3:9114,172.19.0.4:9114]labels:instance: es1.3 promethues配置告警规则或者配置grafana大盘
再次不进行扩展。
2. 核心告警指标
es的指标很多相关的指标含义可以参考 官网文档本文将摘选出核心的指标作为es集群的核心监控并配置相关的告警。
2.1 es核心指标
es性能指标有以下三类
es本身的指标主机层面的指标JVM垃圾回收指标
es层面指标
指标名称指标说明参考值备注进程进程进程存在 1指标名称指标说明参考值备注elasticsearch_cluster_health_status{status“green”}集群状态!1green 所有的主分片和副本分片都正常运行、yellow所有的主分片都正常运行但不是所有的副本分片都正常运行red有主分片没能正常运行elasticsearch_cluster_health_relocating_shards前节点正在迁移到其他节点的分片数量20通常为0集群中有节点新加入或者退出时该值会增加elasticsearch_cluster_health_initializing_shards正在初始化的分片50如果数据写入通常持续有小幅度值出现elasticsearch_cluster_health_unassigned_shards未分配的分片数1通常为0当有节点的副本分片丢失该值会增加elasticsearch_cluster_health_number_of_pending_tasks队列中等待的任务20绝大部分情况下元数据更改的队列基本上保持为零elasticsearch_cluster_health_active_shards活跃的分片数量3w通常按照容量模型单个集群的总分片不应该超过3w暂无指标单shard数据存储大小50g通常按照容量模型单个分片的最大存储数据量不应该超过50g
机器层面指标
指标名称指标说明参考值备注elasticsearch_process_cpu_percentCPU使用率80%机器的cpu使用率不能过高elasticsearch_filesystem_data_free_bytes磁盘可用空间30%机器的磁盘是使用率不能过高否则可能会触发只读风险elasticsearch_process_open_files_count进程打开的文件描述符60w需要配置ulimit匹配相关的进程进行文件读写通常不能低于60welasticsearch_transport_rx_packets_total节点之间网络入流量根据机器的规格调整节点之间网络入流量根据机器的网络网卡规格调整如果单节点的出入网络过高则说明需要扩容了elasticsearch_transport_tx_packets_total节点之间网络出流量根据机器的规格调整节点之间网络出流量根据机器的网络网卡规格调整如果单节点的出入网络过高则说明需要扩容了
JVM指标
指标名称指标说明参考值备注MemHeapUsedM/MemHeapMaxMJvm 堆内内存使用率 60%
2.2 es容量模型建议
根据公有云以及es的维护、使用的相关经验单个es集群的容量不是无上限整理出es的容量模型需要进行注意及时扩容或者做数据分流
1.【公有云 ES 最佳实践】 1.1 集群总分片数 30000单个索引分片大小建议不超过 50g单节点分片数量 4000 1.2 节点数超过 20 节点添加专有 master 节点即 data:master ≤ 20:1 1.3 cpu/mem/disk 建议比例 搜索场景比例 1:2:32 日志场景比例 1:4:192 1:4:384 1.4 单节点性能规格参考 写入性能 16c/64g、 jvm 32G 单节点可支持 2w docs/s 写入 存储容量 源数据 * (1 副本数量) * 1.45 * 1 0.5≈ 源数据 * (1 副本数量)
2.【社区建议】 2.1 数据加速、查询聚合等场景单节点磁盘最大容量 单节点内存大小GB* 10。 日志写入、离线分析等场景单节点磁盘最大容量 单节点内存大小GB* 50。 通常情况单节点磁盘最大容量 单节点内存大小GB* 30。 2.2单个数据节点的shard数量 当前节点的内存大小 * 30小规格实例参考 单个数据节点的shard数量 当前节点的内存大小 * 50大规格实例参考
3.其他指标 cpu 60% jvm内存 80% 磁盘util 60% 磁盘使用率 70% 集群所有index必须至少1主 1从副本 集群读写拒绝率 0.1% 集群无节点 old gc 单节点承载最大数据量 1T ES版本 6.8
3. 参考文章
es监控官网