G行异地灾备中心
网络建设及发展思路
引言
商业银行数据中心发展经历了数据大集中、两地三中心的发展阶段,随着“东数西算”政策和“金融数据中心能力建设指引”陆续发布,“多地多中心”逐渐成为金融行业数据中心建设发展的选择之路。异地灾备中心作为多地多中心重要环节,重要性正逐渐凸显,正引起金融行业关注并加大投入和建设力度。网络是数据中心“血脉”,其建设须遵循政策和监管指引要求,以保障整体规划和建设满足促进自身数字化转型的算力和赋能需求,同时筑牢业务连续性支撑基础。本文简单介绍上述背景下,G行异地灾备中心网络建设及发展思路。
G行异地灾备中心
网络建设现状
01
G行数据中心整体架构根据自身特点采用了“大同城,小异地”策略来建立标准的“两地三中心”数据中心架构及灾备体系。其中,异地灾备中心网络早在2010年就投入使用。G行异地灾备中心网络架构与北京生产数据中心保持一致,并结合灾备系统部署架构、业务交易量与系统资源配比情况,综合成本投入,基于异地业务承载场景,适当简化。
- 网络架构方面,局域网内部按照业务类型、安全等级、重要程度和服务对象划分多个安全区域,包括核心区、生产区、三方区、互联网公众服务区、办公区等。
- 主要设备选型方面,经历了从对国外品牌的千兆万兆网络向国产25G/40G/100G骨干网络升级。
- 网络通讯方面,建设连接北京生产双中心、国内一级分行、重要三方专线网络和互联网出口。
- 网络安全方面,各区域通过硬件防火墙产品物理隔离,部署入侵检测、全流量分析、DDOS等安全防护设备,实现网络日常安全隔离、访问控制和动态监测处置。异地灾备中心与生产数据中心之间日常仅允许办公管理相关访问,严禁生产与灾备系统业务交易流量互访。
G行异地灾备中心网络经过十多年的建设,较好的支撑了全行业务连续性50余套重要系统应用级灾备建设,同时保障了总分行生产业务数据异地实时备份安全。自2020年开始,G行异地灾备切换演练在同业率先实现了由“模拟演练”向“真实接管业务”转变,并实现真实接管业务后生产数据回写北京生产主数据中心,经历了5年的“荷枪实弹”检验,充分验证了其网络建设的安全性和有效性。G行异地灾备中心网络在全行重要业务连续性支撑和数据安全方面发挥了重要作用。
G行异地数据中心网络建设发展思路
02
近年来,中国人民银行正式发布了《金融数据中心能力建设指引》(JR/T 0265-2023)、《金融数据中心容灾建设指引》(JR/T 0264-2024)以及《云计算技术金融应用规范容灾》等多项金融行业标准,这些文件为金融业数据中心建设提出了新的要求。
- 跨中心网络:支持多运营商线路,实现可靠互联,合理规划路由协议和安全策略以保障网络通信的高效性和安全性要求。同时,能主动感知网络状态,供网络故障的快速分析能力,支持流量分析、出口流量优化,以及基于线路质量的智能选路。在网络边界采用多层异构防火墙等进行安全防护等。
- 内部网络:金融数据中心内部网络应用高冗余、高可靠、低时延、可扩展的网络架构,进行合理的 IP 地址规划。根据应用属性、安全要求等划分不同网络功能分区。应部署网管系统,实时监控网络状态,主动感知网络状态,评估网络健康度。具备网络故障的快速分析能力以保障网络的安全性和可靠性。
- 云上安全:保证虚拟网络全冗余设计,避免单点故障。支持包括不同租户网络及同一租户不同网络的隔离;云服务使用者自行划分安全区域,对VPC的操作(如创建或删除VPC,自定义路由、安全组和ACL策略等)需要验证云服务使用者凭证;VPC之间以及VPC与其他网络建立VPN或专线连接;云服务使用者监控所拥有各网络节点间的流量。应识别、监控虚拟机之间的流量;支持开放接口,允许接入第三方安全产品。
- 数据传输:容灾中心与生产中心间互联网络提供充足的备份数据传输带宽,满足业务连续性要求高的业务数据备份峰值所需的带宽需求。灾备中心的出口网络带宽应至少满足重要业务系统基本对外服务能力的带宽需求,宜满足重要业务系统全部对外服务能力的带宽需求;同时,考虑金融数据中心之间互联的时延需求,至少支持自动或集中切换,宜支持实时无缝切换。
随着大数据、云技术、人工智能等技术的不断发展,G行异地灾备中心以上述指引性文件为原则,规划了一系列重点网络项目建设作为载体,驱动异地转型,其网络建设在全行科技战略规划指引下不断呈现新特点。
2.1 核心承载网
传统的广域网架构由于存在路由协议不一致、专线带宽利用率低、扩展性差等缺点,逐渐成为数据中心传输的瓶颈。为支撑数据中心架构从两地三中心向多地多中心演进,G行启动了核心承载网项目,其中异地灾备中心核心承载网已实现IP/备份/存储流量三网融合。IP流量主要涉及异地灾备的业务、办公、监控等数据流量, 存储、备份流量则分别用于数据同步。线路选择不同运营商互为冗余备份。
核心承载网作为高度融合的服务端网络,让流量完成“拥塞感知+自动算路+自动调整”管理,有效提升专线利用率,压缩了线路成本,并减轻传统人工方式依赖,提升了运维效率。
2.2 全栈云网络
2019年底G行瞄准应用多中心多活目标,开始发展全栈云平台,希望通过全栈云平台进一步提升资源敏捷交付能力,提供无处不在的云服务,实现业务上云、数据上云、创新上云,最终实现统一的多云管理。为支撑全栈云平台,G行异地灾备网络于2022年建设全栈云网络,目前已支撑了多个重要系统灾备上云。全栈云整体采用了三层网络架构设计,通过模块化的网络设计,实现了按需扩展网络模块,并引入分布式网络设计,构建Spine-Leaf扁平化数据中心网络架构,按需弹性扩展。
Spine-leaf架构三层underlay网络使核心和接入交换机充分解耦,当网络出现流量瓶颈时,可通过增加上联链路,降低超载比,根据路由选址自动实现流量的切换和负载,带宽扩容基本对应用无感知,overlay网络通过VXLAN技术部署分布式网关,实现区域内一次性布线按需进行网络资源敏捷交付。路由协议方面选择BGP公有动态网络协议,异构兼容性较强,满足了云平台对基础网络在易延展、高可靠和标准化组网方面的建设需求。
2.3 分布式域名解析系统
为确保敏捷的灾备切换恢复能力,驱动多地多中心多活转型,G行异地灾备中心部署了分布式域名解析系统。该系统按根服务器(Root Server)、权威服务器(Name Server)、递归服务器(Local DNS Server)分角色拆分。根和权威为异构部署,根为域名递归的起始节点,域名需要由根进行授权,递归服务器为集群部署,前端部署负载均衡,实现高性能解析能力、快速扩容和灾备切换,同时提供一定的DDos防护和异常解析请求拦截能力。
分布式域名系统的异地部署,尤其是与全栈云的结合,目前已经支撑多个重要应用系统的快速切换,跟传统的IP切换相比大大提升了切换效率,保障了G行业务连续性发展。
2.4 高速低延迟网络
高质量、大带宽、低时延特性的网络带宽是支撑多中心多活建设的保障。2023年试点完成的异地灾备中心和北京数据中心之间的OTN大带宽线路改造,全面提升了两地数据中心之间的网络传输质量,支持了灾备数据中心与北京数据中心间存储备份多业务复用核心承载网建设。
同时,G行异地灾备中心局域网也大力推动大带宽低延迟网络建设,保证异地网络带宽及链路配置与生产系统的网络能力相同,以便支持跨异地和同城可用区的负载均衡。典型场景如全栈云Spine-leaf架构下,Spine与Server Leaf之间互联采用100G链路 full-mesh组网,下联服务器使用两条25G链路捆绑。
2.5 纵深的网络安全体系
对于云上网络,根据功能划分不同的网络区域,支持网络安全隔离;采用网络控制措施防止非授权设备连接云计算平台内部网络,并防止云计算平台物理服务器非授权外联。对于云使用者划分不同的租户,同租户网络及同一租户支持不同网络的隔离,云内应用系统间互访使用适配云平台的安全组和微隔离技术实现应用级别的访问控制,有效保证了云上应用系统的系统安全性。
针对互联网边界,大力推动国产化,部署入侵防护检测,SSL WEB加解密、应用层WAF防御以及蜜罐系统等安全防护设备,构建从网络边界到内部的多层防御机制。
总结与展望
随着新技术和新业务场景的不断出现,各种监管规范和指引也不断发布或更新,这对金融行业异地数据中心网络建设提出了新的要求与目标。未来,G行异地数据中心网络将结合全行新一轮科技发展规划,不断引入云原生、分布式、信创等新技术产品,通过基础网络的不断迭代演进,建设具备高带宽、低延迟、高可靠和持续安全交付能力的关键网络基础设施,满足新环境下G行业务连续性支撑需求,为“两地多中心”数据中心演进和异地数据中心生产转型奠定坚实的基础。
原创文章,作者:lishengli,如若转载,请注明出处:https://www.lishengli.com/lee/4323.html