一个软件更新引发的“全球宕机”

时间: 2024-10-23 20:16:26 |   作者: 等离子表面处理

  7月19日,美国科技巨头微软公司爆发重大服务中断事件,全世界内众多用户反映搭载Windows系统的企业电脑出现“蓝屏”故障,无法正常启动。多国上千航班停飞、银行停业、媒体停播……从美洲、欧洲到亚洲,该问题影响到了包括交通、金融、媒体、医疗等在内的各行各业。

  据微软日本子公司确认,此次故障与第三方美国网络安全企业CrowdStrike旗下软件更新有关。微软方面最新回应称,“根本起因”已解决,但也表示残余影响会继续影响某些微软365程序和服务。19日称,这一“全球性技术故障”凸显了对少数供应商软件的依赖。

  英国《卫报》19日引述知名网络安全顾问特洛伊·亨特(Troy Hunt)的分析认为,这可能是“历史上顶级规模的IT故障”。“我认为现在下结论并不为时过早:这将是历史上顶级规模的IT故障。”他社交媒体平台X(原推特)上写道,“这基本上就是我们所有人对Y2K问题的担忧,只不过这次真的发生了。”

  专家表示,恢复在大多数情况下要几天时间,因为每台受影响的电脑可能都必须手动修复。事件发生后,微软美股盘前跌幅扩大至近2%,CrowdStrike盘前跌超20%。

  微软此前发布的初步分析表示,故障始于美国中部的Azure区域数据中心,“部分Azure后端工作负载的配置更改导致存储和计算资源之间中断,因此导致连接故障,影响依赖这些连接的下游微软365服务”。据报道,大多数宕机都与云端存储服务OneDrive、服务器连接和邮件服务Outlook有关。

  CrowdStrike首席执行官乔治·库尔茨(George Kurtz)在X上称,公司“正积极与受Windows主机单一内容更新中发现的缺陷影响的客户合作”,有关问题已被识别并部署修复程序。他强调:“这不是一起安全事件或网络攻击。”

  CrowdStrike是总部在美国加利福尼亚州森尼韦尔的电脑安全技术公司,提供端点安全、情报威胁等信息。据悉,许多受影响的Windows电脑与CrowdStrike一款名为“Falcon传感器”(Falcon sensor)的用于收集安全数据的软件有关。

  微软365在X上公布消息称,公司“正在努力将受影响的流量重新路由到备用系统,以更便捷的方式减轻影响”,并称已“观察到服务可用性呈积极趋势”。不过,指出,在技术方表示正在慢慢地修复故障后数小时,各地的服务中断情况仍在不断升级。

  受影响最严重的可能是航空、交通领域。英国广播公司(BBC)引述航空分析公司Cirium的数据说,全球已有1000多个航班被取消。美国联合航空、达美航空、美国航空和忠实航空(Allegiant Air)等一度实行全球停飞令。

  英国廉价航空公司瑞安航空(Ryanair)以及火车运营商TransPennine Express和Govia Thameslink Railway也受到了影响。欧洲最大的航空公司瑞安航空称:“由于全球第三方IT发生故障,我们的整个网络目前都处于中断状态,这超出了我们的控制范围。我们提议所有乘客至少提前三小时到达机场。”

  7月19日,在德国汉堡,旅客在汉堡机场1号航站楼等待办理登机手续视觉中国

  由于机场的在线值机服务和自助值机服务瘫痪,排队人数增加,许多人被困在机场。多家航司在X上发表相关声明说,正采用人工办理登机手续和登机程序。印度私营低成本航空公司靛蓝航空(IndiGo)表示,故障给数千名乘客带来了不便。

  从各地报道来看,香港、台湾、东京、德里、柏林、苏黎世、罗马、阿姆斯特丹等地的机场也都受一定的影响。在洛杉矶国际机场,由于航班延误,一些旅客不得不用背包和行李当枕头席地而睡。

  据央视新闻报道,从国航、东航、南航等多家航空公司了解到,截至目前航班未受到大范围系统技术故障影响,航班运行正常。北京首都机场和大兴机场出发的国际航班目前也运行正常。

  跟踪用户报告的互联网中断情况的DownDetector网站显示,包括澳最大的商业银行澳大利亚国民银行(NAB)、澳大利亚联邦银行、本迪戈银行在内的金融机构,澳大利亚维珍航空(Virgin)、捷星航空(Jetstar)等航司,以及Telstra等互联网和电话供应商都报告了故障。

  据,澳大利亚的新闻机构,包括澳大利亚广播公司(ABC)和天空新闻(Sky News),都无法在其电视和广播频道上进行广播,并报告了Windows系统计算机突然关闭的情况。一些新闻主播在显示“蓝屏死机 ”的电脑前,从黑暗的办公室进行在线直播。

  新西兰的奥克兰储蓄银行和新西兰邮政银行(Kiwibank)也表示其服务出现故障。

  此事惊动澳大利亚和新西兰政府部门出面回应。新西兰代理首相西摩在X上表示,该国官员正在“按部就班地了解 ”这一全球性问题的“潜在影响”。澳网络安全监督管理的机构则表示,没有一点信息表明出现了恶意攻击,“我们目前拥有的信息是,这次中断与受影响企业使用的第三方软件平台的技术问题有关”。

  银行系统宕机也影响到许多日常支付。据社媒用户报告说,在英国的面包店和咖啡连锁店Gails和澳大利亚零售店Woolworths付款时遇上问题。在南非,至少有一家大银行表示正在经历“全国性的服务中断”,因为有客户报告无法在杂货店和加油站使用银行卡付款。

  7月19日,澳大利亚悉尼一家超市的自助结账终端,一名顾客在蓝屏前结账视觉中国

  在日本,环球影城的结帐系统也受一定的影响。从当地时间下午2时左右开始,园区内餐厅和纪念品商店的收银机出现“蓝屏”没办法使用,所有店铺宣布暂停营业。有人指出,日本麦当劳今天上午有约3成店铺暂停营业,可能也是受到微软故障的影响。

  西日本旅客铁道公司(JR西日本)则是在下午2时20分左右,无法在官网和应用程式确认列车运行位置。JR西日本表示,目前神户线、京都线等近畿地区列车,有部分列车无法显示位置,尚未确定何时恢复。

  此次危机还波及公共医疗设施。据报道,美国阿拉斯加州官员表示,许多911和非紧急呼叫中心都无法正常工作。英国国民医疗服务体系(NHS)下的几家诊所则报告说,院内用于保存医疗记录、制作排班表的临床系统受到影响。

  “我们无法访问病人的临床记录,因此无法预约或提供信息。”位于英格兰北部布里格豪斯的Church Lane Surgery在X上写道,“这是一个全国性的问题,正在作为高度优先事项做处理。”

  在德国北部,在基尔和吕贝克都设有分院的石勒苏益格-荷尔斯泰因大学医院(Schleswig-Holstein University Hospital)表示,已经取消了原定于19日进行的所有选择性手术,但病人和急诊护理不受影响。

  此外,下周即将开幕的巴黎奥运会亦未能“幸免”。巴黎奥运会组委会表示,其IT系统受一定的影响,但已充分动员技术团队减轻影响,并已启动应急计划。不过,有消息人士告诉法新社,IT故障影响了奥运会认证系统,部分运动员可能没办法在下周五的开幕典礼前领到徽章。

  当前,CrowdStrike已经发布了修复程序。但BBC说,据知情人士称,该程序必须单独应用于受影响的每个设备,每台机器都需要在安全模式下手动重启,这将给各地的IT部门带来非常大的工作量。英国萨里大学网络安全教授艾伦·伍德沃德(Alan Woodward)表示,修复在大多数情况下要几天的时间。

  伍德沃德指出,导致本轮中断的“Falcon传感器”软件通常用于拥有大量个人电脑的大型机构,以确保所有电脑都受到监控。“拥有大量电脑的大型组织使用该产品来确保一切都受到监控。遗憾的是,如果他们失去了所有电脑,他们就无法运行,或者只能以大幅度的降低的服务水平运行。”

  美东时间19日早晨,CrowdStrike首席执行官库尔茨首度接受各个媒体访问回应此次“全球宕机”事件,并致歉:“对我们给客户、旅客和任何受此影响的人造成的影响,我们深表歉意。”

  他承认,事件是由公司旗下软件更新导致,“该更新存在软件错误,导致微软操作系统出现一些明显的异常问题……我们很快就发现了这样的一个问题并进行了补救”,但对于“某些无法自动恢复的系统”,修复可能还需要一些时间,他也无法确定这需要多久。

  为何仅仅是一次第三方软件的内容更新就导致了全世界内航空系统、支付系统、医疗系统等的瘫痪?为什么一个软件错误就能产生如此深远而直接的影响?此次与美国全国广播公司(NBC)的最新访问中,库尔茨也被问到这一问题。

  对此,库尔茨告诉NBC主持人,网络安全问题“很复杂”,“要始终领先于(发动网络攻击的)对手无疑是一项艰巨的任务”,因此就需要不断更新。至于到底哪里发生了“不良反应”,他必须“回去看看发生了什么”。

  “一次IT更新是如何引发全球灾难的”,BBC科技编辑佐伊·克莱因曼(Zoe Kleinman)19日以此为题写道,这次事故“令人深思,世界已经变得多么依赖由大公司远程管理的设备,而当这些设备发生故障时,我们又是多么无能为力”。

  克莱因曼说,事情发生后,一名计算机科学家对她双手抱头感叹:“永远别在周五推送更新。”她说,这也是为什么许多大公司倾向于在周中发布软件更新,因为如果出现问题,修复起来需要时间,公司在周末工作的人员通常较少,解决起来必然需要更长的时间。