摘要:
一 、论文介绍了第一个脑电图(EEG)语料库,这个语料库由25000多个脑电图组成,还有神经科医生对测试的解释、患者的简要病史以及患者的人口统计学信息,如性别和年龄等信息。这是有史以来第一次有拥有足够的数据量来支持机器学习/深度学习的算法。。
二、作者还介绍了他做的一个基本实验,使用原始的3726个会话子集来预测脑电图(EEG)的一些基本属性。
脑电图介绍:
脑电图(EEG),它是用来记录脑部活动的脑部信号的。脑电图在医学上非常重要的一个应用是可以用来诊断一些脑部疾病,比如说癫痫等。但是一个训练有素的医生来分析解释信号可能需要数周时间。所以我们希望有程序自动分析脑电图信号。在过去40年里,这个想法一直被研究人员所研究,但是因为效果较差,临床应用得到限制。近年来机器学习和深度学习的兴起,所以设想能够使用比较先进的机器学习和深度学习算法来研究,但是因为缺乏足够的数据,还没有得到广泛的应用。所以,THU EEG Corpus这个数据集的诞生,意味着可以将机器学习和深度学习的算法应用在脑电图分析上。
THU EEG Corpus介绍:
采集:
记录包括25000多个脑电图记录和14000多名患者,原始信号包括使用16位a/D转换器以最小250 Hz采样的20到128个通道的记录。
存储:
数据以EDF文件格式存储。这些EDF文件用一个标题存储重要的元数据信息,为确保患者的匿名性将病历号、姓名、确切的出生日期和研究编号在标题中进行了修订,与脑电图结果和解释相关的信息,如性别、年龄、病史和药物治疗,则被保留。下面的表1显示了来自此标头的包含重要元数据的选定字段。(75%的数据是小于一个小时的采样)
数据裁剪:
从语料库的大小来看,EEG信号数据需要大约1.8T的存储空间,平均文件大小为20mb。
将脑电信号裁剪,也就是说脑电图技术人员识别出记录中有临床价值的部分,并丢弃其余部分。
即便如此,数据量还是惊人的。比如我们将每个通道的数据视为一个独立的信号,则会有超过1B秒的数据。
虽然这可能看起来很大,但我们感兴趣的事件相对较少,通常只占记录持续时间的1%。在一个疗程中出现癫痫发作的病人人数大约有几百人。当这些会话被患者的病史交叉引用时,即使如此庞大的数据量也显得很小。