目录
- 摘要
- 引言
- 功能性和特点
- 可用性和成熟度
- 结论
摘要
过程通过分析事件日志来探索实际过程。事件日志数据非常有价值,但是通常包含敏感信息,过程分析员需要平衡机密性与效用。
我们提出一个基于python的基础设施实现过程挖掘最先进的隐私保护技术。
- 基础设施提供了分层级的使用,从单个技术到技术的集合,整合为基于网页的工具。
- 基础设施它还存储显式隐私元数据,以跟踪用于保护敏感数据的修改。
引言
ELPaaS这个基于网页的工具已经实现了差分隐私和PRETSA的隐私保护方法。ELPaaS从用户那里获取必需的参数,并以CSV文件的形式在用户的电子邮件地址中提供结果。
过程挖掘隐私方法有两种主要的活动:PPDP(Privacy-Preserving Data Publishing)和PPPM(PrivacyPreserving Process Mining).
- PPDP旨在隐藏事件数据记录拥有者的身份和敏感信息。
- PPPM旨在扩展传统的过程挖掘算法来处理某些PPDP技术产生的非标准数据。
本文介绍的工具主要集中在PPDP,以及提供最新的隐私保护技术,包括用于安全发现进程的connector方法[9,10],用于隐私感知的角色挖掘的分解方法[6]和用于进程挖掘的T LKC隐私模型[8] 。 [7]中提出的隐私元数据也被嵌入提供的隐私保护技术中。
此外,通过基于Web的界面通过PM4Py-WS(PMTK)[3]来呈现过程挖掘上下文中的隐私,这是一个特定示例,表明可以将提供的隐私保护技术添加到现有的过程挖掘工具中,以用于支持PPPM。
功能性和特点
在本节中,我们将演示基于Web的独立工具PPDP-PM的主要功能和特性,该工具是使用Django framework1用Python编写的。我们的工具具有四个主要模块:事件数据管理,隐私感知角色挖掘,连接器方法和TLKC隐私。
- 事件数据管理模块具有两个选项卡,用于上载和管理事件数据,这些事件数据可以是标准XES事件日志2或非标准事件数据,称为事件日志抽象(ELA)【7】.在此模块中,可以将事件日志设置为隐私保护技术的输入。
- 隐私感知角色挖掘模块(图二)实现了分解方法来支持三种不同的技术:基于固定值,选择性和基于频率的【6】.应用技术后,将在相应的“输出”部分中提供XES格式的隐私感知事件日志。生成的事件日志保留了用于从资源中挖掘角色的数据效用,而不会暴露谁执行什么操作。
- 连接器方法实现了基于加密的方法来发现直接跟随图【9,10】.它将轨迹分解为直接跟随关系的集合,这些关系被安全地存储在数据结构中。应用该方法后,隐私感知事件数据在相应的“输出”部分中以ELA格式的XML文件形式提供。【7】
- T LKC-privacy模块实现了用于过程挖掘的T LKC-privacy模型[8],该模型在假设四种背景知识的情况下提供了基于组的隐私保证:集合,多集,序列和相对。 T表示隐私感知事件日志中时间戳的准确性,L表示背景知识的能力,K表示k-匿名定义中的k【11】.C表示等价类中有关敏感属性值的置信范围。应用此方法将产生XES格式的隐私感知事件日志,该日志保留用于过程发现和性能分析的数据效用。
在开源过程挖掘工具的上下文中,我们还提供了相同的隐私保护技术。图3显示了PMTK中隐私集成的主页的摘要,其中流程挖掘算法可以直接应用于隐私感知事件数据。
该工具中的每种隐私保护技术都实现为Django应用程序,该应用程序可以在事件日志上同时运行各种技术。这种架构使整个项目易于维护,新技术可以简单地集成为独立的应用程序。隐私保护技术的输出是为每种技术独立提供的,可以下载或存储在事件数据存储库中。 PPDP-PM以提供隐私保护技术周期的方式进行设计,即,添加到事件数据存储库中的可感知隐私的事件数据可以再次设置为该技术的输入,只要它们以XES标准事件日志的形式。
为了让过程分析员能够感知应用于隐私感知的事件日志的修改,隐私元数据【7】指定应用的隐私保护技术的顺序。此外,该工具遵循一种命名方法,可以根据技术名称,创建时间和事件日志的名称来唯一地识别隐私感知事件数据。
可用性和成熟度
如前所述,PPDP-PM是一个用Python编写的基于Web的应用程序。 GitHub存储库中提供了源代码,截屏视频和其他信息https://github.com/m4jidRafiei/PPDP-PM.在第2节中介绍的隐私保护技术以及与PMTK的集成也可以作为单独的GitHub存储库https://github.com/m4jidRafiei/使用。为了促进隐私保护技术的使用和集成,它们也作为标准Python软件包发布(https://pypi.org/): pp-role-mining, p-connector-dfg, ptlkc-privacy, and p-privacy-metadata。
我们的基础结构提供了使用的层次结构,以便用户可以独立使用每种技术,可以使用PPDP-PM(将一组隐私保护技术集成为独立的基于Web的应用程序),还可以在流程挖掘中使用提供的技术集成了隐私保护技术的工具。该工具的可扩展性因隐私保护技术和输入事件日志的大小。根据我们的实验,我们的工具可以处理现实事件日志BPI challenge datasets.但是,对于工业规模的使用,仍然可以对其进行改进。 PPDP-PM及其在PMTK中的集成也作为Docker容器提供,可以由用户轻松托管:https://hub.docker.com/u/m4jid
结论
事件数据通常包含高度敏感的信息,流程分析人员需要考虑这些信息,法规。在本文中,我们介绍了一种基于Python的基础结构,用于处理流程挖掘中的隐私问题。引入了一个基于Web的应用程序来实现过程挖掘隐私保护数据发布技术。
我们还展示了PMTK中的隐私集成,它是一种基于Web的开源过程挖掘工具。基础设施的设计方式是可以集成其他隐私保护技术。我们计划在过程挖掘中涵盖隐私和机密性问题的不同角度,并且应该将新技术集成到引入的框架中。我们还邀请其他研究人员将其解决方案作为独立的应用程序集成到提供的框架中。