当前位置: 代码迷 >> 综合 >> 笔记1(数据集介绍)-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation
  详细解决方案

笔记1(数据集介绍)-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation

热度:73   发布时间:2024-02-07 12:00:20.0

摘要:

         一 、论文介绍了第一个脑电图(EEG)语料库,这个语料库由25000多个脑电图组成,还有神经科医生对测试的解释、患者的简要病史以及患者的人口统计学信息,如性别和年龄等信息。这是有史以来第一次有拥有足够的数据量来支持机器学习/深度学习的算法。。

         二、作者还介绍了他做的一个基本实验,使用原始的3726个会话子集来预测脑电图(EEG)的一些基本属性。

脑电图介绍:

        脑电图(EEG),它是用来记录脑部活动的脑部信号的。脑电图在医学上非常重要的一个应用是可以用来诊断一些脑部疾病,比如说癫痫等。但是一个训练有素的医生来分析解释信号可能需要数周时间。所以我们希望有程序自动分析脑电图信号。在过去40年里,这个想法一直被研究人员所研究,但是因为效果较差,临床应用得到限制。近年来机器学习和深度学习的兴起,所以设想能够使用比较先进的机器学习和深度学习算法来研究,但是因为缺乏足够的数据,还没有得到广泛的应用。所以,THU EEG Corpus这个数据集的诞生,意味着可以将机器学习和深度学习的算法应用在脑电图分析上。

THU EEG Corpus介绍:

采集:

         记录包括25000多个脑电图记录和14000多名患者,原始信号包括使用16位a/D转换器以最小250 Hz采样的20到128个通道的记录。

存储:

         数据以EDF文件格式存储。这些EDF文件用一个标题存储重要的元数据信息,为确保患者的匿名性将病历号、姓名、确切的出生日期和研究编号在标题中进行了修订,与脑电图结果和解释相关的信息,如性别、年龄、病史和药物治疗,则被保留。下面的表1显示了来自此标头的包含重要元数据的选定字段。(75%的数据是小于一个小时的采样)

数据裁剪:

         从语料库的大小来看,EEG信号数据需要大约1.8T的存储空间,平均文件大小为20mb。

         将脑电信号裁剪,也就是说脑电图技术人员识别出记录中有临床价值的部分,并丢弃其余部分。

         即便如此,数据量还是惊人的。比如我们将每个通道的数据视为一个独立的信号,则会有超过1B秒的数据。

        虽然这可能看起来很大,但我们感兴趣的事件相对较少,通常只占记录持续时间的1%。在一个疗程中出现癫痫发作的病人人数大约有几百人。当这些会话被患者的病史交叉引用时,即使如此庞大的数据量也显得很小。

 

 

 

            

  相关解决方案