性男女做视频网站,网络推广和网络运营,php网站好吗,汉中市建设工程审批一直很慢 #x1f422;
运行中状态、卡住了#xff0c;可以从以下两种方式入手#xff1a;
如果 Spark UI 上#xff0c;有正在运行的 Job/Stage/Task#xff0c;看 Executor 相关信息就好。#x1f4bb;
第一步#xff0c;如果发现卡住了#xff0c;直接找到对应的…一直很慢
运行中状态、卡住了可以从以下两种方式入手
如果 Spark UI 上有正在运行的 Job/Stage/Task看 Executor 相关信息就好。
第一步如果发现卡住了直接找到对应的 Executor 页面 第二步不断的刷新看看 Task 线程栈执行的内容是什么 如果 Spark UI 上没有正在运行的 Job/Stage/Task看 Driver 相关信息就好。️
第一选择是看 Driver 的 ThreadDump分析 Driver 在执行什么逻辑。 第二选择如果发现 Driver 的线程栈没异常的时候可以结合 driver 日志查看日志最后的信息是什么。 运行结束了
首先看看是否有执行时间明显比较长或者对比历史执行时间比较长的 Job, Stage 查看 Jobs 页面寻找运行耗时相对较长的作业注意这里的 Duration 时间是 Job 启动时间和结束时间的耗时不代表真正的耗时例如可能存在多个 Job 同时运行就会出现受资源影响的情况可能 Duration 比较长实际真正执行时间比较短的情况 查看 Stages 页面确定运行时间比较长的 Stage注意这里的 Duration 和 Job 的 Duration 是一样的只代表执行起始时间的跨度不代表实际执行耗时 查看 Duration 时间比较长的 Stage 的实际执行时间找到执行时间较长的 Stage 还可以查看所有成功 Task 的执行 Metrics 的直方统计图以便分析数据倾斜等情况同时注意 GC 时间的占比分析是否存在内存问题。 注意 ⚠️
上面提到了执行慢可能是 资源问题 也可能是 逻辑或者数据问题如何确定呢
如果上述的 Stage 的详情耗时与历史执行对比基本一致那么基本可以判断为资源问题。如果直方图中显示的 Task Duration 有可判断为数据倾斜的情况个别 Task 慢且输入或输出数据远大于其他 Task可能是数据倾斜导致的。如果并不符合数据倾斜的特征但是某个节点的 Task 执行都慢可能是机器负载异常导致。Spill 指标比较高可能是内存压力大spill 至磁盘导致计算变慢这种情况需要总结和评估是否加内存或者接受稍慢的情况。 比历史慢
排查步骤
首先对比两次执行的 Job 或者 Stage 是否有明显的运行时间区别。对比执行逻辑是否有改变例如 broadcast join 变为 sortmerge joinsql 可以查看执行计划rdd 可以分区 job 的 dag。driver 内存压力大导致调度能力下降目前可以关注 Driver 的 gc 日志。对比是否有数据量的变动查看 stage 的输入输出就可以了 资源的差异可以查看对应的 stage 的 executor 统计或者队列资源的监控。数据倾斜