数据科学与机器学习方法对网络安全的一些影响

发布时间：2023-06-02 10:44:42 所属栏目：安全来源：

导读：数据科学是推动这一变革的动力。在云计算领域,网络安全的技术和运维正处于极大的转型。从网络安全数据中提取安全事件的模式，建立相应的数据驱动模型，是使得安全系统自动化和智能化的关键。

一、背景

由于对

数据科学是推动这一变革的动力。在云计算领域,网络安全的技术和运维正处于极大的转型。从网络安全数据中提取安全事件的模式，建立相应的数据驱动模型，是使得安全系统自动化和智能化的关键。

一、背景

由于对数字化和物联网的日益依赖，各种安全事件，例如未授权访问、恶意软件攻击、数据泄露、拒绝服务攻击（DOS）、分布式拒绝服务攻击（DDOS）、网络钓鱼等等，此类安全事件近年来以指数级的速度增长。在2010年，据统计安全社区已知的恶意软件可执行文件不到5000万个。根据相关研究机构的统计数据，到2012年，它们增加了1亿，而在2019年，安全社区已知的恶意可执行文件已经超过了9亿，而且这个数字可能还会增长。此类的网络攻击事件会给社会、国家和每个人带来巨大的安全隐患，因此，如何准确地识别各种已有的或者未曾见过的网络攻击事件，并智能地保护相关系统免受此类网络攻击，是迫切需要解决的关键问题[1]。

网络安全本质上是一套技术和过程，是为了保护计算机、网络、程序和数据免受攻击、损坏，或未经授权的访问。近年来，网络安全在计算领域的技术正在发生着巨大的变化，而数据科学正在推动这一变化，机器学习，作为人工智能的核心部分，可以在数据科学领域发挥至关重要的作用，利用机器学习可以显著地改变网络安全的格局，而数据科学正在引领一种新的科学方法，此类技术的流行程度日益增加，如图1.1所示，2014年流行程度指数小于40，而在2019年已经超过了70。分析网络安全数据，构建正确的工具和流程来成功地防止网络安全事件，这不仅仅是一套简单的功能需求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式，可以使用一些机器学习技术，如特征工程、数据聚类、分类和关联分析，或基于神经网络的深度学习方法，从而做出合理的决策。

二、研究挑战

国内外的研究人员已经考虑了从数据中提取信息的基本概念与原则，这些基本方法和基本原理是从大量的数据分析研究中得出的。从数据中提取有用的信息应该通过已有的规范的步骤来处理整个流程。数据科学需要在使用它的上下文中进行详细的考虑和结果评估，因为提取的信息对于帮助给定程序中的决定过程是非常重要的。相关性发现是网络安全领域应该考虑的数据科学基本概念之一，它通常提供相关数据项的详细信息，特别是我们已经了解的数据项的数量，从而大大减少了未知的不确定性。微软引入了TDSP，它为数据科学项目创建了一个生命周期。随后通过对KDD过程、CRISP-DM、TDSP和FMDS进行比较，其中FMDS、CRISP-DM和TDSP被使用范围最广，因为它们被认为是最受欢迎的，同时它们也是为机器学习与数据科学领域提出的，这些技术与网络安全领域有非常大的关联[2]。分析网络安全数据，构建正确的工具和流程来成功地防止网络安全事件，这不仅仅是一套简单的功能需求和关于风险、威胁或漏洞的知识。为了简单地提取安全事件的见解或模式，可以使用一些机器学习技术，如特征工程、数据聚类、分类和关联分析，或基于神经网络的深度学习方法，从而做出合理的决策。

三、网络攻击安全挑战

这种风险通常与许多攻击相关，通常我们考虑三个安全因素，首先是威胁，即谁在攻击；其次是漏洞，即正在攻击什么；最后是影响，即攻击做了什么。安全事件是一种威胁到信息和系统的机密性、完整性或可用性的行为，可能导致大量或单个的系统和网络受到攻击的几种类型的网络安全事件有：

未经授权访问网络、系统或数据信息都是不安全的行为，存在很大的隐患；

恶意软件被故意设计成对计算机、客户端、服务器或计算机网络造成损害的程序或软件，对系统会产生巨大的影响；

拒绝服务（DOS）是一种攻击，旨在关闭机器或网络，使目标用户无法访问它；

钓鱼是恶意入侵计算机的行为，主要用于全球性的广泛的计算机恶意入侵活动，通过人与人之间互动不可避免地完成，攻击者企图通过电子邮件、文本或即时消息，将自己伪装成受信任的个人或团体，参与获取敏感信息[3]。

四、数据科学与网络安全数据科学

我们生活在一个充满着数据的时代，数据驱动了许多的产业。从数据中发现隐藏有趣的知信息的过程被人们称为数据挖掘，为了用现实数据来理解和分析生活中的现象，我们使用了各种科学的方法、机器学习等，这些通常都被称为数据科学。数据科学的一般定义是通过使用科学的方法从数据中提取信息以及发现新事物。数据科学可以利用存储、计算和行为分析等等的技术优势来建立新的网络安全方法。一般来说，由分布式系统建立的集群存储使得收集和存储大量数据变得更加容易

数据科学的应用使得访问大量的数据使解决具有复杂性的安全问题成为可能。利用海量的大数据进行数据挖掘，往往数据越多，越能创建更准确和精确的分析。在网络安全领域中，数据科学通过利用海量数据、高性能计算以及数据挖掘的方法来保护用户免受网络攻击，在信息安全领域发挥了重要的作用。

数据科学在很大程度上是由数据的可用性驱动的，数据集通常代表由几个属性或特征和相关事实组成的信息记录的集合，而网络安全数据科学就是基于这些集合的，因此，了解包含各种类型的网络攻击和相关特征的网络安全数据的性质是很重要的。因为从相关数据来源收集的原始安全数据可以用来分析安全事件或恶意行为的所属模式，基于此可以建立一个数据驱动的安全模型，以实现我们的目标。在网络安全领域存在一些数据集，包括入侵分析、恶意软件分析、异常、欺诈或垃圾邮件分析，因此在图2.1中，总结了几个这样的数据集，包括它们的各种特征以及在互联网上可访问的攻击，同时罗列了在基于机器学习下不同的网络应用程序中的使用[4]。

通过对这些安全特性进行分析和处理，根据需求构建基于目标机器学习的安全模型，并最终实现数据驱动，才是要达到的目的。因此，网络安全数据科学的概念结合了数据科学和机器学习，以及各种安全事件的行为来进行分析。将这些技术结合产生了网络安全数据科学这种方法，指的就是从不同的来源收集大量的安全事件数据以及使用机器学习的方法检测安全风险或攻击，最终发现高效的或者最新的数据驱动模式。这样的方法可以帮助企业快速、有效地识别威胁，提高业务运营的安全性。但是，如果没有足够的人才和专业知识，就很难实现这样的目标。

（编辑：聊城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为什么智能建筑IoT网络	高级加密标准 AES 解析
深入分析由黑客组织Da	教你如何使用最低有效