您的位置 首页 java

《Java保卫战》

《Java保卫战》

前不久,部门正在开年度的总结会议。这时候,手机响了,电话那边传来了核心业务部门负责人急促的声音:“求助!我们的某个 Java 服务持续发生超时,已经不能正常工作5小时了,情况非常罕见,我们没有经验,需要架构组的帮忙”。

5个小时的服务异常,早已经超过了全年的 SLA 指标,再持续下去,业务部门的其他指标也不能保住,这对一个核心业务来说无疑是不能承受之痛。通过电话会议指挥的领导当机立断,指示必须启动linux应急工具进行排查,使用bcc工具追踪资源使用情况,必要时可dump多份core文件。经过架构组的紧急处理,服务的超时问题终于有了一定程度的缓解,所有人都松了一口气,期待服务慢慢恢复。

事与愿违,服务再次出现超时,情况紧急。随着时间延长,服务的持续不可用会造成雪崩,后果不堪设想。架构组几位大神仔细分析了core文件,认为服务的长时间超时与网络插口的松动有关。可以紧急联系机房人员,检查服务器的网线是否插紧。网口松动这种涉及几千台几万台服务器的检查,且有的服务器不止一块网卡,操作非常具有挑战性。更大的问题是部分机器年份已老,已经进行过多次维修,如果再次检查出问题会触发机器的回收机制。

公司领导紧急召开视频会议,全部开着语音进行指挥。首席 网络工程师 亲自打车飞奔机房,逐一进行了网口检查。架构组领导通过语音讲话耐心的指导着每个路由器、集线器、机器网卡的水晶头操作步骤。检查过程有条不紊,终于历经一个半小时,几千台网络接口都已经插紧,整个团队都沉浸在成功的喜悦之中。

经过1天的观察,网口再也没有出现过松动,经整个部门评估后,危险解除。同时,部门立下新的任务,把所有网线的水晶头更换为带卡扣的,以绝后患!

在研发全年KPI考核的关键时刻,面对复杂的机房环境,研发同学坚持客户至上、业务优先,在关键时刻有担当,有作为,齐心协力打赢了这场“Java保卫战”,全力守护了服务的健康!

同时,架构组也提醒,以后在寻求帮助时,不要特意点名是“Java服务”,仅仅说明是哪个服务出问题就可以了。我们不把问题抛到Java身上,对其他语言的服务问题也是一视同仁!

作者简介:小姐姐味道 (xjjdog),一个不允许程序员走弯路的公众号。聚焦基础架构和Linux。十年架构,日百亿流量,与你探讨高并发世界,给你不一样的味道。

推荐阅读:

1. 玩转Linux
2. 什么味道专辑

3. 蓝牙如梦
4. 杀机!
5. 失联的架构师,只留下一段脚本
6. 架构师写的BUG,非比寻常
7. 有些程序员,本质是一群羊!

小姐姐味道 不羡鸳鸯不羡仙,一行代码调半天 331篇原创内容 –>

文章来源:智云一二三科技

文章标题:《Java保卫战》

文章地址:https://www.zhihuclub.com/198682.shtml

关于作者: 智云科技

热门文章

网站地图