从被动响应到主动感知：云原生自动化应急响应实战-安全KER

最近参加了Xcon2020安全技术峰会，趁热打铁跟大家聊聊云平台上的原生自动化应急响应。

随着云计算的大规模普及，公有云的应急响应趋势已逐渐从”被动响应”发展为”主动感知”。一方面云计算的灵活性、可扩展性和性价比吸引了更多的企业上云；另一方面云计算的网络开放，资源共享特性也给网络攻击提供了更为广阔的土壤。

传统单点对抗的应急响应已无法满足云时代的复杂攻击形态和规模。如何在攻击前做好预防措施，攻击后快速有效的自动化溯源取证和风险收敛已经成为云时代应急响应技术的核心竞争力。

应急响应的发展

我认为近代应急响应的发展可分为两个时代：IDC时代和云时代。

IDC时代企业环境部署应用多以linux和windows为主，这一阶段事件响应检测方法论多以单点对抗为主。

随着云计算的普及的普及，越来越多的企业上云，企业环境和资产形态已由传统的实体化向虚拟化和多样化转换，云计算的灵活性、可扩展性和性价比吸引了更多的企业上云，同时也带来了新一轮的安全风险。

IDC时代的资产形态以windows和Linux实体机为主，数量在百台以下。其特点是：成本高、不易扩展、维护和恢复比较复杂，这一阶段的应急响应方法论一般为被动式单机检测。

云时代的资产形态则更加多样化和多元化。数量更是有千台甚至以上。其特点是：低成本、易扩展、资产数量多、安全责任共担。云计算的提供便利的同时，其规模也带来很大安全运营成本。对于安全事件应急响应的自动化溯源取证已经成为必然趋势。

云上应急响应简述

安全行业的小伙伴应该都明白一个道理，那就是没有绝对安全的系统。而当系统被入侵和破坏时，不可避免的会导致业务中断。应急响应的核心价值就是在安全事件突发时，快速有序的处理，最大限度的快速恢复业务和减少损失。因此响应和恢复速度将是云上应急响应的核心竞争力。

以上是我总结的云上应急响应的现状，从图中可以看到云租户的诉求和运营商的交付方案存在很大的不对等，这也是云上应急的主要矛盾。大量的差评工单和投诉都是因为这个产生的。这也是客户和运营商面临的一个重大难题。

既然是难题，难在哪里？从图中我们可以看到有六大困难，并get到三个关键点：海量事件的困扰，分析投入大、人员要求高；证据完整性的挑战，证据提取和保全难度大；责任共担模型便捷模糊导致权责不清晰。

如何解决以上提到的困难？通过上图我们可以看到云平台的主要解决方案是通过云平台基础设施和自动化运维体系构成。通过SOC中集成的云产品日志和全网蜜罐数据进行智能化分析解决云主机自身无日志或日志丢失问题、通过镜像、快照和自动化工具突破网络复杂、应用场景复杂、责任边界模糊、取证苦难和数据量大的困难。

云时代的原生自动化应急响应

业内通常使用的PDCERF方法学（最早由 1987 年美国宾夕法尼亚匹兹堡软件工程研究所在关于应急响应的邀请工作会议上提出），将应急响应分成准备（Preparation）、检测（Detection）、抑制（Containment）、根除（Eradication）、恢复（Recovery）、跟踪（Follow-up）6个阶段的工作。从上图可以看到一次完整的应急响应需要做的事情很多。而业内的提到应急响应一般仅进行到第二个阶段，比较好的运营商会进行到第四个阶段。无论第二还是第四阶段都是建立在解决问题的角度，无法进行持续性运营和方案进化。常规的应急响应对人力和能力的要求很高。且无法解决上边提到的六个难点问题。为了更好的在云上做好应急响应。腾讯安全云鼎实验室结合多年的云上运营和实践经验设计出云原生自动化应急方案。