机构:University of New South Wales, Australia
作者:Arunan Sivanathan, Hassan Habibi Gharakheili, Franco Loi, Adam Radford, Chamith Wijenayake, Arun Vishwanath and Vijay Sivaraman
发布地方: IEEE Transactions on Mobile Computing 2018
github链接:https://github.com/arunmir/sdn-sim(数据集)
背景
物联网(IoT)被誉为下一次变革社会的浪潮,家居、企业和城市正日益配备大量物联网设备。然而,这种智能环境的运营商甚至可能没有充分意识到他们的物联网资产,更不用说每个物联网设备是否能正常运行,免受网络攻击。
智能环境的运营商会发现很难确定哪些物联网设备连接到其网络,以及进一步确定每个设备是否正常工作。通常情况下,不同用途的资产主要分配给不同的部门。例如,在地方议会中,照明传感器可能由设施小组安装,污水和垃圾传感器由环卫部门安装,监控摄像头由当地警察部门安装。
及时获得物联网设备的“可视性”对运营商至关重要,运营商的任务是确保设备处于适当的网络安全段中,为必要的服务质量做好准备,并在带来安全风险时迅速隔离。两个反面例子:
1.通过鱼缸攻击赌场数据库
2.通过无人售货机攻击校园网络
问题
人们期望设备可以通过它们的MAC地址(mac address)和DHCP协商(DHCP negotiation)进行识别,但是存在以下问题:
1.IT设备的网卡(NICs)通常情况下是第三方的产品,因此MAC地址的组织前缀(Organizationally Unique Identifier, OUI)几乎不包括任何有效的信息
2.恶意设备会篡改MAC地址
3.许多IoT设备在DHCP协议中不会设置Host name(论文的数据集中大约一半的设备)
4.即使设备暴露了Host name,但是也不包含有意义的信息(例如 WBP-EE4F for Withings baby monitor )
5.用户也会修改 Hostname
本文通过提出一个鲁棒的方法框架,对每个IoT设备进行基于流量特征的高精度分类,从而对网络中设备的“存在性”进行识别。
本文贡献在于:
1.在一个有28个物联网设备的实验室里模拟了一个智能环境。这些设备包括摄像机、灯、插头、运动传感器、电器和健康-监视器。我们从这个环境中收集和集合了6个月的数据。其中数据子集(60天)可供研究团体使用。
2.识别关键的统计属性,如活动周期、端口号、信令模式和密码套件,并使用它们来深入了解底层网络流量特征。
3.开发了一个基于多阶段机器学习(a multi-stage machine learning)的分类算法,并证明了该算法能够根据网络行为以超过99%的准确率识别特定物联网设备。
4.通过对分类器的成本、速度和准确性之间进行权衡,实现了实时评估分类框架的部署。
本文方法
?IOT TRAFFIC COLLECTION AND SYNTHESIS
?IOT TRAFFIC CHARACTERIZATION
?MACHINE LEARNING BASED CLASSIFICATION
?REAL-TIME OPERATION IN A NETWORK