ICT圈子里的人,尤其是学通信的,多多少少都会听说过“信息论”这个词。美国数学家香农于上世纪40年代创建了这个关于信息转换和传输的理论体系。得益于信息论,我们今天才能够方便地使用电子设备进行远程沟通和协作。
那么,信息论这样一个充满数学公式的抽象理论体系跟数字孪生这样一个以呈现为主的应用领域有关系吗?答案是:有。并且,按照信息论中的术语来说,绝对是互信息高,强相关性的两个事物。
自从接触数字孪生以来,有个问题一直困扰着我,就是我们的客户甚至于一些刚入行的同事,都认为数字孪生系统除了界面美观和效果炫酷以外,好像没什么更大的用处,一言蔽之:花瓶!而接触过一段时间后,想法改变了,认为数字孪生系统好像有点用处,但是又说不出个所以然来,也只好反反复复地用一些车轱辘话来向客户解释,我们的系统直观易懂,能反应最新的高科技和前卫思想,领导们都很喜欢云云。很多客户一听,是这么回事,既然“我爱学习,学习让我妈快乐”是真理,那么“我买数字孪生,数字孪生让领导开心”必然也不差啊。
于是乎,优锘科技的软件销量一直还不错。
作为一家有情怀的公司,我们从来没有放弃正本清源的信念,而是期望通过理论,尤其是那些被数学严格证明的理论,来解释数字孪生系统存在的科学原理。很巧的是,前段时间刚好读了一些关于信息论的资料,这些资料写得浅显易懂,让资质愚钝的我也能大概了解了其中的部分内容。今天这篇短文,就是尝试着用信息论中的观点,来解释为何数字孪生系统能够大行其道。不过有个重要的前提必须要说,这篇文章谈论的所有关于信息论的内容,人都是接收信息的最后节点,要把人的因素考虑在其中。
信息转换两原则
No.2
信息论中,关于信息的转换有两个基本原则:
容易识别:也就是说,代表信息的符号类型数量不要太多,容易记忆,且外在表示轮廓清晰,不过于复杂,符号与符号之间区别度较大;
高效编码:就是用尽量少的符号表达尽量多的信息,这是信息编码效率的提高,让信息转换和传输的速度都会快很多,这个原则同时也是香农第一定理的一种白话解释。但高效性的前提是容易识别,比如玛雅人用二十进制,虽然满足了编码高效性的原则,但是符号太多,没有满足容易识别的原则,所以不是信息传递的最佳编码方式。计算机的二进制虽然编码效率不是最高的,在计算机的世界里是最容易识别和处理的,所以最终被采用。在人的世界里,最合适的是十进制。
下面来看看收发电报用的摩尔斯电码的编码示意图。
上图中,小圆点代表电报机的短接触,长条代表电报机的长接触(即发报员按住继电器,让其保持闭合的时间大概为短接触的三倍),不同的长短组合代表不同的字符和数字(下面是老式电报机的示意图,看了这张图应该能知道什么是接触了)。
摩尔斯编码特别能体现信息转换的两个原则。首先,只有短接触和长接触两种方式,接收电报的电报员很容易识别,不太会出现偏差;然后,按照文章里英文字母出现的概率来进行编码,最常见的字母e用最简洁的一个短接触表示。这样做的结果,就是编码的电报长度相对较短且容易识别,传输起来就又快又准。
信息论的基本应用
No.3
传统的应用系统在表达物理世界时,无论是文字表达还是图形表达,都是用抽象、概括、推理等手段将物理世界按一定的方式进行了转换,造成的结果就是用户盲人摸象一般对管理对象进行了不同的解读。而数字孪生系统采用的是基于物理世界、三维的、交互式的图形界面,相当于让用户身临其境一样的来到现场面对真实的管理对象,这种情况下就很难产生二义性。
概括来说,数字孪生系统及其符合信息转换中的第一个原则,容易识别。这个特点使得代表物理世界的信息在到达传输路径最终节点的时候(这个最终节点就是人)能够被忠实的还原,几乎不会出现失真,所有用户都能够全面、一致、快捷地理解信息代表的含义。可以说,这是人类目前所有信息传递方式中辨识度最高的,没有之一。
至于高效编码原则,在数字孪生系统中应用比较广泛的就是无损压缩和模型缓存。
当用户第一次进入系统或者模型更新的时候,都要从服务器下载模型。这时候,如果网络带宽不够(广域网尤为明显),就会导致系统加载缓慢。对于开发者而言,网络带宽是不可控因素,所以他们通常都使用无损压缩的方式,将物体模型文件和模型上的贴图文件进行压缩,减少了网络数据的传输量,进而降低了系统加载的时间。
内存由于存取数据速度上的优势,是程序员的最爱。但是基于安全的考虑,浏览器本身所能使用的内存是有限的(而普通的可执行程序能使用几乎所有的可用物理资源),所以前端开发人员的重要任务之一就是如何把有限的内存发挥最大的作用。在数字孪生系统中,通常的做法是将模型及相关数据进行缓存,当然也是利用高效编码的原理,将三维场景中的各类模型按数量多少进行排序,再决定哪些模型文件放到内存中,保证这些频繁出现的模型不需要再去硬盘上读取,节省加载的时间。
信息论的扩展应用
No.4
信息在传输的过程中,由于人为因素或者年代久远,要么增加了一些干扰的噪声,要么缺失了一些重要的片段,人们不太清楚信息究竟要表达什么含义,也就是说信息出现了不确定性。对于这个问题,在众多的解决方案中,信息论就是很有效的手段之一。
4.1 信息的矢量化
很多优秀的知识学习者都提到了一个经验,想要快速学习某个领域的知识的话,要至少找两篇由这个领域中的两位观点相反的佼佼者编写的文章或者书籍来看。这个经验映射着这样一个道理,如果要知晓事物的本质,就要尽可能多维度地了解它的外在特性,通过交叉验证的方式发现真相。如同我们要了解历史的真相,仅仅靠读史书是不够的,再多的史书也只是在文字记载这样一个维度上去还原历史,我们还要依赖于考古学家的文物发现去从另一个维度验证。
在数字孪生系统中,依赖于三维可视化技术,被管对象就是以多种维度呈现在用户面前。
举个停车场可视化的例子,传统的系统大概能告诉用户两条信息,一是车位总数,二是空闲车位数量。这样的信息可以让管理员或者车主采取二选一的行动,一是有车位,你可以进去停,二是没车位,你别进去了,但这样的信息包含的不确定内容太多了,对车主或者为车主提供服务的停车场管理员来说极不方便。
但是数字孪生系统中的停车场就不一样了,管理员或者车主不仅仅可以看到是否有车位,还可以看到哪里有车位或者残疾人车位,哪些车位方便停车,哪个区域的车位多一些,甚至能够以第一人称的视角引导车主到达目标车位。如果停车场与建筑物在同一场景中,还可以了解到哪些车位离电梯近一些,哪些车位离车主准备前往的办公区域或者商业区域近一些,基本上所有人群的需求都能被覆盖到。
比起传统系统单一的数量维度,数字孪生系统还以可视化方式提供了空间位置维度、动态第一人称视角维度、参照物维度、车位类型维度、同质区域维度等等,维度的增加让信息的确定性越来越高,大大提高了信息的价值。这就是信息矢量化产生的巨大效用。
4.2 信息的冗余度
1997年8月,一架大韩航空客机在接近关岛机场时撞上尼米兹山山腰,226人死亡。事后调查发现,事故发生前客机第一副驾驶和飞机工程师都曾用韩语表达过反对目测着陆的暗示,而机长没有意识到暗示的内容。
作为补救措施,大韩航空邀请达美航空的戴维?格瑞博来帮助管理运营。格瑞博空降来的第一件事就是提高所有航班机组的英语能力,并将工作语言规定为英语。
造成这场空难的原因很多,比如机长的能力低下与偏执,比如韩国企业文化中的权力至上氛围而不敢对机长提出质疑而导致的表达过于委婉等等。但其中有一个很重要的原因就是英语的这种表达方式比起东亚语言来说,信息冗余度更高,更容易让人理解而不产生误会和信息缺失。
什么叫信息冗余度高呢?举个例子,英文版和中文版的圣经通过哈夫曼编码(可以理解成一种把信息高度抽象化,把废话全部去掉的无损压缩算法)后的长度几乎是一样的,但如果不压缩的话,英文版的圣经的厚度几乎是中文版的1.5倍。这个结论充分说明了对于同样一个意思的表达,英文的表达方式是冗余量较高的。即便不做量化的对比,大家在英语考试时做中英文互译对此应该也深有体会。在此我们不去探究为何英语冗余度高,我们只需要知道这样一个信息论中的结论即可,就是为了提高信息传递的有效性,必须保持信息的一定冗余度。上文中说到的大韩航空替换工作语言,其实也是应用到了这个结论,从而保证信息传递的有效性,降低沟通失误导致灾难发生的可能性。
数字孪生系统中,关于物体的空间属性(比如长宽高和坐标信息),不仅仅有传统的数字形式,还有物体的三维模型这样一个等同于空间属性数据的冗余表达形式。你可以想象这样的一些场景,一台核磁共振仪穿墙而过,同时出现在两个房间里;一个机柜中的上下两台服务器有一部分重叠在一起。这种现实世界中不可能发生的情况在数字孪生系统中出现了,为什么呢?因为系统的呈现是基于空间属性数据的,作为资产管理员便很容易的从其中发现资产数据存在的问题进而进行完善,这就是数字孪生系统中,信息冗余度带来的好处。
信息论的未来应用
No.5
大家都会有这样的体验,当你戴着耳机在一个嘈杂的环境中听歌的时候,为了听清楚歌曲,不得不提高音量,但是长时间的高音量对耳朵是有损伤的。为此出现了一种主动降噪耳机,这种耳机中内置的芯片能够过滤掉外界的噪音,只让人想听的音乐进入耳朵。它是怎么做到的呢?
这里需要引入一个新概念,叫“傅里叶变换”。这个概念详细解释起来对于普通人来说有点晦涩,概括而言,就是把不容易识别的信息通过一种等价方式的转换,从而变得容易识别和处理。我们知道很多关于等价转换的例子。比如曹冲称象的故事中,就是把不容易测量重量的大象的转换成可以测量的很多块石头;比如天体物理学家判断宇宙中其他星球的物质成分,并不需要降落到其上去采样,而仅仅通过望远镜的观测和光谱分析即可,正是因为物质的化学成分与其光谱之间是等价关系。同样的道理,主动降噪耳机能够通过傅里叶变换,把外界声音等价变成一个个不同频率声波的组合,并分析、发现并抵消声波组合中的属于噪音频率的声波,最后让耳朵听到正常的音乐。
傅里叶变换是信息论体系中很重要的一根支柱,在数字孪生系统中也有很多的应用场景,尤其是自动建模这部分。作为数字孪生领域的领头羊,优锘科技已经在CAD图纸、IT系统架构图和二维物体图片的自动识别和建模方面应用了傅里叶变换算法,并取得了一些重大突破,原理也是把上述三类数据进行等价转换,把其中的噪音数据过滤后再进行处理。只是,这其中还要牵涉到大数据训练和人工智能的模式识别等诸多的技术领域,并不是一蹴而就。
优锘科技一直在畅想一个由自动化采集、自动化生成和自动化连接组成的三位一体的新一代数字孪生世界。现在,以倾斜摄影为代表的的自动化采集技术和以5G通信为代表的自动化连接技术已经初见成效,而自动化建模则是我们进入新世界要跨过的最后一道难关。
技术在进步,人也在进步,对于我们优锘人来说,还有什么是不可能的呢?