B站服务器故障?浅析其中原因及如何解决方案

7月13日23时许,B站客户端和网页端均出现访问故障,无法打开,页面提示“正在玩命加载数据”。不久后,“B站崩了&rdquo

7月13日23时许,B站客户端和网页端均出现访问故障,无法打开,页面提示“正在玩命加载数据”。不久后,“B站崩了”话题也迅速登上微博热搜。

约在23时45分,B站网页端和APP才恢复正常。14日凌晨,B站微博发布致歉声明,称部分服务器机房发生故障,造成无法访问。外界猜测,本次事故可能是由于服务器宕机所致。

什么是服务器宕机?

服务器宕机指的是由于某些原因导致服务器无法正常运转,造成网络无法使用。对于网站来说,服务器宕机带来的影响很大,不但影响用户对网站的正常访问,还会影响网站在搜索引擎上的排名以及对外的品牌形象。

服务器发生宕机的原因

1.服务器环境的客观原因

如机房突然断电,或者是温度过高,服务器就会出现死机、关机的情况,不过这种情况发生的概率较小,正规的IDC厂商都会做好预防措施,备用电路和发电机以及智能恒温系统都可有效预防这种情况的发生。

2.服务器不堪负重

这是一种比较常见的情况,由于网站的流量突然大量增加,或者是受攻击、程序中毒等,导致服务器压力骤增,资源耗尽,造成死机的情况。

3.不合理的应用

如公司为了减少成本的投入,租用一些配置和性能较低的服务器,若在这种服务器上安装一些大型软件,很容易造成服务器超负荷运转,发生宕机情况。

除此之外,还有很多的细节也能导致服务器宕机,比如环境配置、错误程序、数据库丢失等也是常见原因。

服务器宕机解决方案

1.共享存储集群

在单机单柜的基础上,增加1台备用主机,即可构建基于共享存储的热备集群。增加1台物理服务器作为服务器的备机,并在备机部署业务系统,通过共享存储热备集群产品,实现对应用的高可用保护。如主机上运行的系统出现异常故障导致宕机,比如应用服务异常、硬件设备故障,可将系统切换至备用主机,以保证网站连续运营和可访问性。

2.数据镜像集群

部署两台服务器,将其中1台服务器作为主机,通过活动IP对外提供服务,主机产生的数据会直接写入主机的本地磁盘,通过网络实时传输到备机,从而保证两台服务器数据的一致性。在此基础上,如果主机出现故障(服务器宕机,应用系统故障,网络故障等情况),主机会在保证数据一致性前提下,将数据库切换到备机运行,继续对外提供服务,确保生产管理系统持续运营工作。

3. 解析宕机切换

将解析指向多个IP,实现宕机切换,保障网站可继续访问。中科三方智能云解析系统具备宕机监测与切换功能当发现其中的目标服务器宕机时,可以将解析快速切换到预先配置的备用服务器上,以维持网站的可用性,保证用户可以继续通过原域名访问到正常工作的备用服务器。

4.远程容灾

根据系统环境、网络环境,结合容灾需求等情况,构建远程容灾方案。将管理系统生产服务器的数据实时复制到容灾服务器上,确保两台机器数据一致性。当主服务器出现故障时,可通过备用服务器快速恢复业务系统;当本地机房完全瘫痪时,可通过容灾机房公网IP将服务映射出去,对外提供服务。

5.云容灾

将生产中心的数据和业务实时灾备至云端,如生产中心出现事故,可迅速利用云端的容灾系统及时接管业务。不同区域的云之间,构建数据和业务灾备,最大化保障业务系统和数据的安全。

6.双机双柜

采用多机双柜解决方案,为用户构建高容错、高安全、高性能的集群容灾平台,以实现多个功能模块之间相互协作和服务器、磁盘阵列、存储通道等软硬件的完全容错,可有效解决了传统高可用方案的单点故障,为用户构建零数据丢失和应用高可用保护的高级集群容灾方案。

虽然B站在较短时间内解决了故障,恢复了网站的正常访问,然而此次事故还是对B站造成了严重影响,不但影响了用户正常访问,还导致B站股价短线走低。因此,做好服务器宕机防范预案,对于政企单位维护网络安全,保障业务系统持续性、可访问性至关重要。