网站首页 > 技术文章 正文
1、背景
由于Oracle对外宣称Oracle JDK停止免费用于商用。公司法务部门评估之后担心后续会惹上光司,于是就开始了JDK升级-将所有服务Oracle修改为OpenJDK。上周开始微服务JDK升级原本只不过是一个基础组件的升级,由于没有涉及业务代码的变更觉得问题不大。但怎么也想不到开始升级之后便陆陆续续出现服务不断重启的异常想象。这到底是咋了?
2、问题暴露
升级镜像之后,java服务频繁重启,服务对外的接口处于半不可用状态,具体表现为接口请求失败率5-10%(该接口对应数据看板主要是内部人员使用,之所以没有第一时间进行止损)
3、异常排查
本次升级除了更新基础JDK镜像,既没有业务代码的变更也没有修改配置,到底是什么原因导致的呢?
带着十分困惑的心情,我和团队开启了漫长的异常排查之旅。
1) 当时出现服务重启,第一感觉是启动耗时长导致探测接口超时超过一定阈值导致重启。
于是在发生异常重启的第1个小时内,我把探测超时由30s调大为60s,发现没有效果,于是又调大到90s, 可惜还是不奏效,服务还是出现一直重启的想象。
2) 接下来是怀疑pod所在的宿主机会不会是内存不足导致的呢?于是登陆宿主机查看内存
$ free -m
总内存128g, 可用内存有60g以上,宿主机的物理内存是足够的。
3)主机内存也是正常的,不知道JVM的监控是否有明显的异常提示呢?
到这个时候,距离升级已经过去2小时了。于是打开业务jvm的heap和gc次数监控看板,发现full gc还是比较规律的,没有明细的异常信息。
此时距离升级已经过去将近3小时了。实在找不到任何头绪了,难道只能回滚了吗?
4)最后的最后,我们想到检查系统级别日志看看是否有异常提示,结果终于发现OOM的错误日志。
dmesg -T
结论:
到这里问题已经比较明显了,pod内部的Java服务异常申请内存超过内存上限(该pod配置的的内存limit值是4g)触发了系统的killer保护进程将pod进程kill掉。
4、根因定位
虽然定位到是OOM原因导致的,但是为什么升级了JDK就导致OOM呢?
经过jinfo命令查看JVM启动参数终于发现根本原因。原来服务反复OOM被kill掉是因为“-XX:MaxHeapSize”参数失效导致Java进程使用默认值32g(物理机的1/4)超出了pod分配的limit上限8g。那为什么“-XX:MaxHeapSize”参数失效呢?那是因为新镜像给JAVA_OPS进行默认赋值,覆盖了之前启动参数JAVA_OPS的值。想要解决这个问题,需要取消OpenJDK镜像对于JAVA_OPS的默认赋值。
jinfo -flags 1
再次确认MaxHeapSize的默认值,通过执行以下命令可以看到MaxHeapSize默认值确实是系统总内存的
1/4。
java -XX:+PrintFlagsFinal -version | grep MaxHeapSize
5、总结复盘
结合本次发布引起的异常做一次复盘,主要包含问题发生和修复完成的时间点以及故障原因分析与优化措施。见如下表格:
- 上一篇: 腾讯牛逼!终于开源了自家的 JDK——Kona
- 下一篇: JDK安装 jdk安装路径查看
猜你喜欢
- 2024-11-04 kubernetes-16:制作oraclejdk镜像
- 2024-11-04 JDK9~11版本和相关特性,建议收藏使用
- 2024-11-04 JAVA零基础入门:JDK的概述及安装 java jdk的安装
- 2024-11-04 5张图讲明白JDK1.7下的HashMap死循环(原理+实战
- 2024-11-04 JDK安装 jdk安装路径查看
- 2024-11-04 腾讯牛逼!终于开源了自家的 JDK——Kona
- 2024-11-04 三、JDK下载与安装指南 jdk下载安装配置步骤
- 2024-11-04 下个月,java要开启收费模式了,你怕了吗?
- 2024-11-04 Java 19 正式版发布 idea java 打包发布
- 2024-11-04 Java JDK11 在Linux上的安装和配置
你 发表评论:
欢迎- 621℃几个Oracle空值处理函数 oracle处理null值的函数
- 613℃Oracle分析函数之Lag和Lead()使用
- 602℃0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
- 598℃Oracle数据库的单、多行函数 oracle执行多个sql语句
- 594℃Oracle 12c PDB迁移(一) oracle迁移到oceanbase
- 586℃【数据统计分析】详解Oracle分组函数之CUBE
- 575℃最佳实践 | 提效 47 倍,制造业生产 Oracle 迁移替换
- 563℃Oracle有哪些常见的函数? oracle中常用的函数
- 最近发表
- 标签列表
-
- 前端设计模式 (75)
- 前端性能优化 (51)
- 前端模板 (66)
- 前端跨域 (52)
- 前端缓存 (63)
- 前端aes加密 (58)
- 前端脚手架 (56)
- 前端md5加密 (54)
- 前端路由 (61)
- 前端数组 (73)
- 前端js面试题 (50)
- 前端定时器 (59)
- 前端获取当前时间 (50)
- Oracle RAC (76)
- oracle恢复 (77)
- oracle 删除表 (52)
- oracle 用户名 (80)
- oracle 工具 (55)
- oracle 内存 (55)
- oracle 导出表 (62)
- oracle约束 (54)
- oracle 中文 (51)
- oracle链接 (54)
- oracle的函数 (58)
- 前端调试 (52)
本文暂时没有评论,来添加一个吧(●'◡'●)