首页 行业 最新信息 查看内容

畸形数据包导致美国遭遇 37 小时的全国性故障

2019-8-21 09:55| 发布者: | 查看: 41| 评论: 0

摘要:   美国联邦通信委员会(FCC)就 2018 年 12 月的故障批评了 CenturyLink,但未给予惩罚。  FCC 的一份新报告称,CenturyLink 在 2018 年 12 月那次长达 37 小时的全国性故障干扰了数百万美国人的 911 服务,阻碍 ...

  美国联邦通信委员会(FCC)就 2018 年 12 月的故障批评了 CenturyLink,但未给予惩罚。

  FCC 的一份新报告称,CenturyLink 在 2018 年 12 月那次长达 37 小时的全国性故障干扰了数百万美国人的 911 服务,阻碍了至少 886 人次的 911 电话。

  早在去年 12 月,FCC 主席 Ajit Pai 称 CenturyLink 光纤网络的故障“完全不可接受”,誓言会彻查。FCC 今天公布了调查结果,描述了 CenturyLink 如何未遵守本可以阻止故障的最佳实践。但 Pai 仍未宣布对 CenturyLink 给予任何惩罚。

  该报告称,那次故障的波及面很广,影响了与 CenturyLink 连接的其他众多网络运营商,包括康卡斯特和 Verizon。报告摘要称:

故障影响了依赖 CenturyLink 传输服务的通信服务提供商、企业客户和消费者,该传输服务将来自不同提供商的流量路由传输到全国各地。故障导致电话和宽带服务(包括 911 电话呼叫)大范围中断。39 个州多达 2200 万客户受影响,其中包括 29 个州的约 1700 万客户,他们无法可靠地访问 911。至少 886 人次的 911 电话未接通。

  FCC 称,长达 37 小时的故障始于 12 月 27 日,“起因是设备故障,网络配置错误加剧了该故障。”FCC 称,CenturyLink 估计其网络上超过 1210 万个电话呼叫“因此被阻或降级”。

  此外,CenturyLink 约 110 万的 DSL 客户在这 37 小时内无法使用服务。FCC 称,另外 260 万 DSL 客户“可能遭遇服务降级”。

  Pai 今天又称故障“完全不可接受”,“通信提供商记取从这次事件中获得的教训很重要。”

  但 FCC 没有宣布惩罚,甚至没有下令要求 CenturyLink 采取具体措施以升级网络。相反,FCC 称它“将与利益有关方进行外联以宣传最佳实践,并与其他主要传输提供商联络,讨论网络实践”,并“向小型提供商提供援助,帮助确保我们国家的通信网络保持稳健、可靠、有弹性。”FCC 称会发布一份公告,“提醒公司采取行业认可的最佳实践”。

  虽然 FCC 在废除网络中立规则时解除了宽带管制,不过仍监管 CenturyLink 等运营商的固话网络,对普通运营商拥有 Title II 监管权。

  FCC 专员 Jessica Rosenworcel 称,报告应早点完成;报告应附有“避免重蹈覆辙的行动计划。这个大问题没有这样的行动计划。”

  根本原因

  FCC 的报告称,问题始于 12 月 27 日上午,当时“科罗拉多州丹佛市节点的一个交换模块自发地生成了四个畸形管理数据包”。

  CenturyLink 和提供该节点的供应商 Infinera 告诉 FCC,“他们不知道怎么或为何生成了畸形数据包。”

  FCC 报告解释,畸形数据库“通常因表明数据包无效的特点而立即被丢弃”,但此事件中没有被立即丢弃:

在此事件中,畸形数据包包括通常生成的有效网络管理数据包的片段。每个畸形数据包都有导致故障的四个属性:

  • 广播目标地址,这意味着数据包被指令发往所有联网的设备;
  • 有效的头部和有效的校验和;
  • 没有到期失效时间,这意味着数据包不会因很早前创建而被丢弃; 
  • 大于 64 字节的大小。

  FCC 称,交换模块将这些畸形数据包“作为网络管理指令发送到线路模块”,这些数据包“传送到所有联网的节点”。接收到数据包的每个节点随后“将数据包转播到所有的联网节点”。

  报告继续称:  

每个联网的节点继续通过专有管理信道将畸形数据包转播到与之连接的每个节点,因为数据包看起来有效,又没有到期失效时间。这个过程无限重复。 

畸形数据包的不断传输导致没完没了的反馈循环,因而消耗了受影响节点的处理能力,这进而破坏了节点保持内部同步的能力。具体来说,如果指令发送到一对线路模块,但只有一个线路模块实际接收到信息,那么发送到输出线路模块的指令就失去同步。没有这种内部同步,节点就会丧失路由传输数据的能力。由于这些节点失效,结果 CenturyLink 网络出现多次故障。

  恢复和未来改变

  CenturyLink 在凌晨 3 点 56 分意识到故障,到上午 10 点左右,“派网络工程师前往内布拉斯加州奥马哈和密苏里州堪萨斯城,直接登录到受影响的节点。”他们后查明问题出在丹佛节点上。晚上 9 点 02 分,公司“找出并撤下了生成畸形数据包的那个模块”。

  但故障仍未排除,因为“畸形数据包继续复制并在网络上传输,从一节点传输到另一节点的过程中生成更多数据包,”FCC 写道。午夜刚过,CenturyLink 工程师“开始指令节点不再应答畸形数据包。”他们还“禁用了专有管理信道,防止进一步传输畸形数据包。”

  到 12 月 28 日上午 5 点 07 分,“网络大部分”正常运行,但所有节点直到当晚 11 点 36 分才恢复正常。

  即使所有节点恢复正常后,“一些客户仍遇到故障的余波,因为 CenturyLink 继续重置受影响的线路模块,并更换未能成功重置的线路模块”,FCC 称。CenturyLink 确认,到 12 月 29 日凌晨 12 点 01 分网络才“稳定下来”。

  未遵循最佳实践

  报告称,几个最佳实践本可以防止故障或减小负面影响。比如说,FCC 称 CenturyLink 及其他网络运营商应禁用未使用的系统功能。

  FCC 写道:“在这个情况下,专有管理信道默认启用,以便需要时可以使用。虽然 CenturyLink 不打算使用该功能,但任由该功能未配置、启用。但任由管理信道启用给网络带来了漏洞,由于允许畸形数据包在网络上不断转播,因此导致了这起故障。”

  报告还称,CenturyLink 本可以采用更强大的过滤机制来防止畸形数据包传播。CenturyLink 使用了“旨在仅仅应对特定风险的过滤器”。相反,CenturyLink 本可以采用只允许预期流量进入的“catch-all 过滤器”。

  FCC 称,CenturyLink 还本应在其网络监控中设置“内存和处理器利用率警报”。尽管畸形数据包“迅速让节点的处理能力不堪重负”,这“没有触发”CenturyLink 系统中的任何警报。

  事件发生后,CenturyLink“换掉了有故障的交换模块,将其发给 Infinera 进行取证分析,”FCC 写道。FCC 称,Infinera 的工程师仍无法再现问题,但涉事公司“已采取了额外措施以防止这个故障重演”。

  那些额外措施包括 CenturyLink 禁用专有管理信道。“Infinera 已禁用了 CenturyLink 网络上新节点的信道,并更新了节点的产品手册,建议在未使用的情况下禁用该信道,”FCC 称。

  报告继续称:

该服务提供商和供应商还为网络管理事件制定了网络监控计划,以更快地检测类似事件。目前,CenturyLink 正在更新其节点的以太网管制器(policer),以减小将来传输畸形数据包的机会。改进的以太网管制器可迅速识别并终止无效数据包,防止传播到网络中。预计这项工作预将于 2019 年秋季完成。

  今天 CenturyLink 表示“故障是生成畸形数据包的网络管理卡引起的;遗憾的是,畸形数据包在 CenturyLink 的传输网络上一路转播。”

  CenturyLink 进一步表示,它“已采取诸多措施帮助防止问题再次发生,包括禁用这些畸形数据库在事件期间通过的通信信道,并加强网络监控。我们重视客户,对此事件可能造成的任何不便深表遗憾。”

  对康卡斯特和 Verizon 等运营商的影响

  FCC 称,故障对依赖 CenturyLink 长途运输网络的其他供应商产生了“连锁效应”。

  FCC 称,“故障可能影响康卡斯特的 3552495 个 VoIP 用户长达 49 小时 32 分钟”,康卡斯特的电话客户可能遇到“快速忙碌信号或呼叫质量下降,如果呼叫在受影响的传输网络上传输。”

  故障还扰乱了康卡斯特在爱达荷州转接 911 电话的能力。

  Verizon 使用 CenturyLink 的网络来传输其部分无线网络流量,“故障影响了 Verizon Wireless 在西部几个州的网络,包括多个地方出现间歇性服务问题,”FCC 称。

  FCC 称,使用 Verizon CDMA 网络的上成千上万 Verizon 客户在故障期间无法拨打 911。Verizon LTE 上的 911 服务未受影响,“因为 LTE 网络不使用受影响的 CenturyLink 网络进行传输。”

  FCC 称,“CenturyLink 故障还对其他服务提供商造成了较小的影响。”不过,这些较小的影响波及数百万人。


鲜花

握手

雷人

路过

鸡蛋
毒镜头:老镜头、摄影器材资料库、老镜头样片、摄影
爱评测 aipingce.com  
返回顶部