首页 > 服务器技术 > WEB服务器

服务器出现问题的几种常见表现方式

2018-12-07 13:47:50 来源：服务器编辑： Lily

全网物理机宕机准确探测与实时发现，可以给宕机分析提供第一现场，获取第一现场的日志。也可以尽早将宕机数据推送给业务或运营感知并处理，如自动报修，业务迁移等，从而尽可能将业务影响降到最低。更重要的是，准确的宕机发现数据可以为宕机预测提供准确的标注数据，为后期宕机预测提供数据基础，并且这些数据提供给运营部门进行整体分析，提升处理效率。那么，如何可以准确发现宕机，减少误报呢?我们可以有以下操作，比如：

心跳源检测异常

顾名思义，通过心跳源，初步发现异常。通常心跳变化会有三类消息，update消息，delete消息和insert消息。心跳逻辑在于，正常情况下SA服务端与NC建立长连接，每数秒缓存一次心跳，每几分钟打包上报一次，但当NC异常时，长连接感知后，立即上报异常，并修改路由表,所以心跳异常做到秒级感知。

update消息，在有心跳发生变化情况下都会有，心跳异常和心跳恢复正常时都会发起，是主要的心跳来源。

delete消息，在心跳异常，并且SA判断ping不通，且ssh不通情况下发起，删除该条消息，避免延迟太长。

insert消息，在新增加机器，或者重装后重新上位的机器发起，该消息对宕机发现价值不大，配合uptime使用。

心跳源检测任务逻辑，主要是监听并缓存uptime消息，同时避免时间窗内多次消息冲突，导致信息被覆盖。

异常排除

排除非物理机器，将系统中暂时不关注的VM等产生的异常信息排除掉。

排除非业务状态的机器，如装机状态中的，包括生产中，维修中，迁移中，重装中，销毁中，重启中，无管控状态，只监控正常状态的机器。

排除非正在工作的机器，如非working状态机器。

网络干扰排除

宕机分析中，较多误报是由于网络问题干扰，无法准确判断出物理机是否宕机，有可能是网络问题。

排除上联网络设备异常导致的误报，包括机房断网演练，小面积网络故障，上联网络故障，如通过探测丢包情况，使用一些逻辑初步判断网络问题。

服务器本身未丢包的误报，除了需要过滤出网络问题，还要通过丢包数据分析，过滤掉SA误报问题，SA异常会上报心跳异常，被误理解为宕机。

版权申明：本站文章均来自网络，如有侵权，请联系01056159998 邮箱：itboby@foxmail.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

猜你还会喜欢下面的内容

最新消息

推荐资讯

虚拟云主机哪家好，三大	云服务器哪家比较好，几
云服务器哪家好国内	划时代意义的云虚拟主

热门点击

中国领先的互联网域名及云服务提供商

为您提供域名,比特币,P2P,大数据,云计算,虚拟主机,域名交易最新资讯报道

域名注册云服务器

关于我们 | 联系我们 | 付款方式 | 资讯中心 | 网站备案 | 百科知识

增值电信业务经营许可证：京B2-20140042号域名注册服务批文号：信部电函[2005]263号

营业执照统一社会信用代码：911101077776591113 京公网安备110301000050号京ICP备05062133号-7

Copyright?1993-2014 北京东方网域新兴技术有限公司版权所有

0