[安全] 如何使用Amazon Macie 进行安全数据自动分类和用户行为监控

Sep 20, 2017 · 1 min read · Security Compliance ·

原始链接见： https://aws.amazon.com/cn/blogs/china/how-to-use-amazon-macie-for-security-data-automatic-classification-and-user-behavior-monitoring/

当我们在Amazon S3中存储大量内容时，识别和分类其中潜在敏感数据可能会有点像在一个非常大的干草堆中找绣花针针，整个的过程是非常低效。那么能否有一种工具可以在数据加入到S3后就自动的识别敏感信息并自动进行分类？

同时在我们日常的工作中，访问数据的时间间隔及物理位置相对的固定。如果发生异常的事件，例如原来某个用户一天访问一到两个文件，但如果突然在某天访问超过一百个文件，能否由系统发出告警事件提醒相关人员进行相关检查，确保安全？

本文从如下几部分介绍Amazon Macie服务及主要功能，同时还列出常见使用场景，以及如何配置的简要步骤。希望能给大家带来帮助。

什么是Macie

Amazon Macie 是一种支持人工智能技术的安全服务，可以帮助您通过自动发现、分类和保护存储在 AWS 中的敏感数据来防止数据丢失。Amazon Macie 使用机器学习来识别敏感数据 (例如,个人身份信息 [PII] 或知识产权)，分配业务价值，提供此数据的存储位置信息及其在组织中的使用方式信息。

Amazon Macie 可持续监控数据访问活动异常，并在检测到未经授权的访问或意外数据泄漏风险时发出警报。为什么要使用Macie

对现存的海量文件进行自动的分类并且根据不同的分类制定不同的监控策略，一旦发生异常的访问需要得到及时的告警，是每个组织面临的挑战。

Amazon Macie提供了简单高效并且安全的方案，Macie通过使用机器学习来了解存储的内容和用户行为，同时提供可视化界面，展示安全分类，从而使客户能够专注于保护敏感信息，而不是浪费时间手工的处理。

Amazon Macie内置检测个人身份信息（PII）或敏感个人信息（SP）的常见敏感信息的引擎，可以自动识别出S3存储文件是否包含例如个人身份信息（PII）或其他公司财报等敏感信息，在没有Macie之前，这样的工作都需要手工的处理或者使用第三方平台。而现在可使用Macie很容易解决上述问题。

Amazon Macie持续监控数据和账户凭证。在发现可疑行为或对实体或第三方应用程序进行未经授权的数据访问时撤销访问或触发密码重置策略，来防范安全威胁。当Amazon Macie发出警报时，您可以使用预先在Amazon CloudWatch设置的规则发送告警，以便迅速采取行动，保护数据。 Macie主要功能

Amazon Macie首先功能分为两部分，一方面是使用自然语言处理(NLP)来理解数据，Macie可以自动对您的S3桶中的数据进行分类。另外一个是使用机器学习理解用户访问数据的行为，同时利用动态分析数据访问模式的预测分析算法，并使用日常访问的用户行为数据不断的训练并优化模型。 Macie 主要功能

自动化处理数据：分析，分类和自动处理数据，从现有的数据和访问日志分析出有规律的历史模式，用户认证数据，用户位置信息及时间信息。
数据安全和监控：主动监控日志数据，检测到的异常情况，转发告警信息到CloudWatch 事件或和Lambda以进行后续处理，例如自动修复安全漏洞或者发送邮件通知。
主动预防的数据的丢失，提供即时保护，无需手动干预。
可视化分析：提供存储数据的可视化详细信息。
数据研究与报告：允许用户管理配置报告。

Macie如何运作

在数据分类过程中，Amazon Macie 识别 S3 存储桶中的对象，并将对象内容流式传输到内存中进行分析。

当需要对复杂文件格式进行更深入的分析时，Amazon Macie 将下载对象的完整副本，并在短时间内保存，直到完成对象的全面分析。Amazon Macie 对数据分类的文件内容分析完毕后，它将立即删除存储内容，仅保留未来分析所需的元数据。

Amazon Macie持续监控分析当前的用户行为习惯并以基础形成基线，例如敏感数据在哪个IP地址以及何时以什么样的频率被进行访问。随后Macie持续监控CloudTrail日志并训练机器学习所使用的模型，，一旦发现可疑的访问活动，Macie可以及时发出告警。

示意图如下：

信息分类

Amazon Macie已经定义好信息分类标准：

配置合规性 – 与合规性内容策略，配置设置，数据日志记录以及补丁级别相关。数据合规性 – 与合规性或安全控制内容的发现相关，例如存在个人身份信息或访问密钥。文件托管 – 与恶意软件，不安全的软件或攻击者的命令和控制基础架构相关的托管主机或存储服务。服务中断 – 可能导致无法访问资源的配置更改。恶意软件或活动- 潜在的恶意软件或活动。可疑访问 – 从风险异常的IP地址，用户或系统访问您的资源。身份枚举 – 一系列API调用或访问，枚举系统的访问级别，可能指示攻击的早期阶段或受到破坏的凭据。特权升级 – 成功或不成功的尝试，以获得对通常受应用程序或用户保护的资源的高级访问，或尝试长时间访问系统或网络。匿名访问 – 尝试从IP地址，用户或服务访问资源，以隐藏用户的真实身份。例如包括使用代理服务器，虚拟专用网络和其他匿名服务，如Tor。开放许可 – 识别受潜在过度允许访问控制机制保护的敏感资源。位置异常 – 访问尝试敏感数据的异常和危险的位置。信息丢失 – 敏感数据的异常和冒险访问。凭证丢失 – 可能损害您的凭据。

告警严重级别

Macie 内置了5种告警信息级别

严重(Critical) – 该级别可能导致信息机密性，完整性和可用性受到损害的安全问题。建议将此安全问题视为紧急情况，并实施立即的补救或加固措施。高 –该级别可能导致信息机密性，完整性和可用性受到损害的安全问题。建议将此安全问题视为紧急情况，并实施立即的补救或加固措施。中等(Medium) – 该级别可能导致信息机密性，完整性和可用性受到中等性损害。建议在下次更新服务期间修复此问题。低(Low) -该级别可能导致信息机密性，完整性和可用性受到低等性损害。建议您将此问题作为未来服务更新的一部分。信息(Informational) – 该级别警告只描述基础架构的特定安全配置详细信息。根据相关业务和组织目标，可以简单地记录这些信息或使用它来提高系统和资源的安全性。

注：严重(Critical) 和高(High)之间的主要区别:

产生严重(Critical)警报的事件可能导致大量资源或系统受到损害。

产生高(High)警报的事件可能导致一个或多个资源或系统受到损害。