经过十多年的发展,企业在IT基础设施以及云原生的业务应用上稳步推进。上云业务规模增加,混合云中网络变得更为复杂,企业对业务安全的诉求、行业主管部门监管的要求有增无减。
为什么混合云需要全网流量
在混合云环境,企业的业务运行在逻辑网络中,同样面临网络性能分析、网络问题定位及排障、网络安全管理、合规审计、网络扩展等问题。获取完整的网络流量是解决上述问题的前提。获取并管理好现网监控流量并不是一件轻松的事情。在云环境下,选择网络流量采集方案需要考虑流量获取的方式、环境中的流量模型、规模及可管理性、对现网环境的影响、平台开放性。目前获取虚拟交换机流量的技术方案有以下几种,企业可根据自身IT环境的实际情况进行灵活部署。
1)在虚拟机或工作负载(Workload)中安装采集探针,从操作系统层抓取流量信息。此方案探针部署规模大,且需要获取虚拟机根(Root)权限。
2)通过在虚拟交换机(OVS:Open vSwitch、VDS:vSphere Distributed Switch、VSS:Virtual Standard Switch)上配置镜像或广播策略,将所需流量引出。该方案需要对生产平面的虚拟交换机进行配置。
3)在宿主机Hypervisor(如 Openstack Hypervisor)上安装采集探针,以用户态进程形式独立获取虚拟交换机上的流量。该方案无需对生产平面的虚拟交换机进行配置。
混合云环境中,网络规模宏大且资源池类型繁多,虚拟交换机采集点数量相比传统监控规模有几个数量级的增长。在构建整体采集方案时,企业应充分考虑IT资源的多样性,采集平台应该分阶段进行建设,尤其要注意确保方案具备扩展和统一管理能力。单一的生产环境在企业中并不多见,在进行流量采集部署时,需要满足平滑部署且保证业务不间断,同时确保对计算资源和网络带宽的消耗限制。
全网流量采集与分发方案
多数大型企业目前都存在多数据中心、混合云的IT设施资源,从网络的角度看,自有的数据中心通过专有网络互联,并划分业务区,并且有可能存在多个分支机构网络。为保障资源弹性,业务快速上线等,也大量使用公有云资源,选择多个云服务商。企业从运维排障、运营管理、业务性能等方面都需要对网络有全面清晰的画像。
本方案的目标是为企业混合云建立统一高效的网络流量采集及分发平台,面对各类资源池实现统一的流量采集抽象层,并且能对流量实现过滤、去重、压缩、截短等处理功能,支持IPv4、IPv6协议环境,能为网络运营中心、安全运营中心、大数据分析平台等多方流量消费端提供数据供给。
数据中心侧
实现全网流量采集及处理,可以从区域以及资源池来规划,数据中心可按区域来定义,区域内通常包含多个可用区;区域内的网络流量包含可用区内的物理网络流量和资源池内的虚拟网络流量。在物理网络中,采集点通常由设备厂商的监控方案实现。DeepFlow® 采集器可对接设备厂商方案的标准数据输出。各类型号的DeepFlow® 采集器为全网流量采集方案提供数据包捕获能力;按部署方式分为VMware ESXi采集器、KVM采集器、KVM-DPDK采集器、HyperV采集器、容器OnVM采集器、容器OnHost采集器、Workload采集器等。
公有云侧
公有云为租户提供VPC网络,Workload采集器以用户态的软件形式部署在虚拟机、容器、裸金属设备等Workload上,支持Linux、Windows等主流操作系统,实现VPC内各类资源的网络流量采集。由于部署安装在Workload操作系统上,采集器数量多,可以通过镜像进行预装。
控制管理侧
由于采集器数量大、策略多,波动强,需从控制面设计入手,解决大规模及可管理性的问题。在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,当启动主控制器高可用功能,主区域内应部署多台控制器,通过心跳保证控制器间的状态同步,及时启动主、备控制器选举。选举产生主控制器后,为整体流量管理平台提供控制入口。除主区域外的其他区域控制器为从控制器,不参与主控制器选举。在云环境、容器环境中,控制器通过对接虚拟化资源池、配置管理数据库、公有云开放API等,可实现多粒度下发采集、分发策略,更灵活、更贴近业务应用。
控制器完全控制采集器状态,各类采集器具备相同状态机机制,各类型的采集器可能处于自检、运行、停止、异常、保护等几种状中,其中保护状态,是确保采集器工作时,平台能对其使用CPU、内存资源使用上限的限定。当采集器压力过大时,采集器状态将由“运行”切换至“保护”状态,以确保不对生产环境产生影响,直至重新调整资源配置或处理压力下降,切回至“运行”状态。
此外,单一DeepFlow® 控制器可管理2000个采集器,通常能够满足一个可用区;控制器最大支持50台的规模,方案整体可满足10万台采集器统一管理,足以应对大型企业私有IT、公有云、容器等网络流量采集需求。
基于分布式的监控流量处理
不同于集中式后处理的方案,DeepFlow® 采集器具备专利算法的前置计算能力可在采集点对流量进行直接处理。众多采集器和控制器共同构建成一个与云网规模一致的分布式流量处理系统,大幅减少了分发数据对监控网络和后端分析工具的压力。通过各类型的采集器实现流量采集处理抽象层,主要对数据包处理能力进行抽象,包括过滤、去重、数据包截短、压缩、特征标记等功能。
高性能网络时序数据订阅服务
对于非原始数据包的数据消费需求,平台提供开放的数据订阅方式。处理后的包头,网络元数据、遥测统计数据通过网络平面汇总至高性能时序数据库中,可通过API,消息队列为其他数据消费平台调用。
部署
整体方案主要涉及采集器、控制器、高性能时序数据库三部分,在完成规划整体方案后,可分区域、分资源池按阶段投入建设,最终为企业混合云IT基础设施环境构建统一的流量监控管理平台。对于已经运行的混合云环境,可以在不影响生产环境运行的情况下部署实施,网络规划上将 DeepFlow® 平台所涉及的管理、监控分发平面复用在已有的网络平面中,通常可以复用已有的网络管理平面。对于整体规划的方案,建议对整体混合云规划独立的网络监控平面,对混合云的监管流量统一、独立地进行管理。根据流量、资源情况整体规划采集器的性能,DeepFlow® 采集器最低可配置1vCPU、128M的计算资源。
与传统方案比较
采集技术先进:全网采集方案主要围绕 DeepFlow® 采集器技术实现,采集器以进程形态部署,最大程度上避免对生产交换平面的干扰,不存在与生产平面交换机流表冲突的风险,同时在操作系统上继承进程级保护优势,实现整体系统稳定。
分布式系统:采集到数据包后避免集中处理,采用分布式架构,采集点分布处理控制器集中管理。
场景全规模大:整体方案是基于分布式设计模型以及多地域管理,可以充分保障资源池规模弹性扩展,整体系统可管理 10 万台采集器,涵盖虚拟机、容器、公有云资源池。
可管理性:平台主控制器具备对所有采集器的监控和管理能力。通过对接云平台使得操作贴近资源池特性,针对云资源的迁移、回收、重新部署等场景做到了实时策略跟随,保障采集能力在动态环境下的持续执行。
数据服务:数据服务是将流量采集与后端平台对接的重要环节,完整流量数据包多目的地分发,高性能网络时序数据库通过API、ZeroMQ、Kafka等消息队列提供流数据服务。同时也将采集与后端各类分析工具解耦,避免流量采集器局限在仅为单一工具服务的竖井中。
总结
DeepFlow® 混合云全网监控流量采集与分发解决方案为企业在混合云、云原生等新型IT基础设施环境演进过程中,提供完整地、可持续的平台级监控流量管理,避免重复投入,重复安装,解决实际网络监管难题,也为企业规划整体运维、安全平台补齐现网流量、流日志这一板块。本方案已应用于金融、运营商等客户IT环境中。
上一篇: 新能源产业发展回顾与展望