笔记1（数据集介绍）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation_综合

摘要：

一、论文介绍了第一个脑电图（EEG）语料库，这个语料库由25000多个脑电图组成，还有神经科医生对测试的解释、患者的简要病史以及患者的人口统计学信息，如性别和年龄等信息。这是有史以来第一次有拥有足够的数据量来支持机器学习/深度学习的算法。。

二、作者还介绍了他做的一个基本实验，使用原始的3726个会话子集来预测脑电图（EEG）的一些基本属性。

脑电图介绍：

脑电图（EEG），它是用来记录脑部活动的脑部信号的。脑电图在医学上非常重要的一个应用是可以用来诊断一些脑部疾病，比如说癫痫等。但是一个训练有素的医生来分析解释信号可能需要数周时间。所以我们希望有程序自动分析脑电图信号。在过去40年里，这个想法一直被研究人员所研究，但是因为效果较差，临床应用得到限制。近年来机器学习和深度学习的兴起，所以设想能够使用比较先进的机器学习和深度学习算法来研究，但是因为缺乏足够的数据，还没有得到广泛的应用。所以，THU EEG Corpus这个数据集的诞生，意味着可以将机器学习和深度学习的算法应用在脑电图分析上。

THU EEG Corpus介绍：

采集：

记录包括25000多个脑电图记录和14000多名患者，原始信号包括使用16位a/D转换器以最小250 Hz采样的20到128个通道的记录。

存储：

数据以EDF文件格式存储。这些EDF文件用一个标题存储重要的元数据信息，为确保患者的匿名性将病历号、姓名、确切的出生日期和研究编号在标题中进行了修订，与脑电图结果和解释相关的信息，如性别、年龄、病史和药物治疗，则被保留。下面的表1显示了来自此标头的包含重要元数据的选定字段。（75%的数据是小于一个小时的采样）

数据裁剪：

从语料库的大小来看，EEG信号数据需要大约1.8T的存储空间，平均文件大小为20mb。

将脑电信号裁剪，也就是说脑电图技术人员识别出记录中有临床价值的部分，并丢弃其余部分。

即便如此，数据量还是惊人的。比如我们将每个通道的数据视为一个独立的信号，则会有超过1B秒的数据。

虽然这可能看起来很大，但我们感兴趣的事件相对较少，通常只占记录持续时间的1%。在一个疗程中出现癫痫发作的病人人数大约有几百人。当这些会话被患者的病史交叉引用时，即使如此庞大的数据量也显得很小。