当前位置：首页 > 育儿 > 正文

「茗创科技」婴儿脑电机器学习实用指南

育儿
2022-06-13
119

大家好，这里是 “茗创科技” 。茗创科技专注于脑科学数据处理，涵盖（EEG/ERP, fMRI,结构像,DTI,ASL, ,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（MCKJ-zhouyi或17373158786）咨询。

导读

脑电图(EEG)已被发展认知神经科学界广泛采用，但机器学习(ML)在该领域的应用滞后于成人EEG研究。由于实验试次少、信噪比低、被试间变异性高和试次间变异性高，因此将ML应用于婴儿数据尤其具有挑战性。此次研究提供了一个将ML应用于婴儿认知状态进行分类的分步教程。描述了广泛应用于EEG分类的大脑属性类型，并介绍了一种基于黎曼几何的方法来推导考虑试次间和被试间变异性的连接性估计。研究者通过对单个婴儿和多个婴儿的试次，展示了学习分类器的流程，并在一个标准的婴儿EEG数据集上演示了这些流程的应用，该数据集是在听觉oddball范式下收集的40名12个月大的婴儿的数据。研究者只对频繁刺激和罕见刺激引起的感知状态进行了分类，但所提供的开源代码也适用于其他实验设计和刺激。

1.前言

发展认知神经科学旨在了解世界的神经表征是如何随着成熟和经验而变化的，以及这些表征中的个体差异如何影响后来的生活结果。EEG已经成为解决这些问题的重要工具。现在提出了另一个重要问题，即是否可以根据多个通道和时间点的活动模式来区分认知状态，而不是仅探索某个通道或时间点是否在不同条件下存在幅值差异。

机器学习(ML)特别适合解决此问题。通过提取和组合可区分的EEG属性，例如不同时间点的电压幅度或不同频带的信号，这些通常被称为特征，ML支持分类器的学习，这些分类器可以根据提取特征的模式区分不同的实验条件。ML已广泛应用于成人EEG数据。ML在婴儿EEG数据中的初步应用集中于根据年龄或临床诊断对婴儿进行分组。在这类分类中，以高精度正确预测婴儿的组标签是首要目标。最近的研究也将ML用于认知状态分类。

对婴儿EEG分类有两个关键挑战。首先，由于多种因素，婴儿EEG数据的信噪比(SNR)往往低于成人数据。为了在放置电极帽后使信号最大化，通常会重新调整电极，但婴儿一般难以忍受大量电极的重新调整。此外，婴儿经常会做出突然的动作，这种动作没有眨眼的伪迹那么刻板固定，因此很难消除。最后，婴儿不能被明确指示将注意力转向给定的刺激。

对婴儿EEG分类的另一个关键挑战是，与成人数据相比，研究持续时间更短，这在很大程度上是由于婴儿的注意力有限。分类器的性能在很大程度上取决于可用训练样本的数量，即在EEG分类背景下分类器学习的试次。因此，考虑到与成人数据相比，婴儿数据的可用试次数量较少和SNR较低，从单个婴儿数据集学习的分类器的性能将受到限制。增加样本量的一种方法是汇集婴儿的数据，这依赖于提取婴儿的共同大脑活动模式。然而，婴儿EEG响应尤其受到大脑形态和成熟度的个体差异的影响。因此，如果单纯地汇集数据，被试间的变异性可能会掩盖区分模式。

除了确定EEG反应中是否存在用于区分认知状态的信息外，ML还可以进一步用于确定哪些大脑属性能够实现这种区分。例如，可以使用分类精度对特征进行排序。这种方法的一个例子是时间分辨分类，其中通过结合EEG通道中的信息来估计每个时间点（相对于刺激开始）的准确性，以深入了解响应动态。与单变量分析相比，通过聚合不同通道的信号，这种方法在检测不同条件和被试之间的差异方面表现出更高的灵敏度。虽然使用ML查找鉴别大脑属性很重要，但作为ML的入门教程，此次研究选择关注ML解决的最基本的问题，即使用单个分类器分离不同类别的样本。

本文的研究者提供了一个如何将ML应用于婴儿EEG分类的详细教程。首先介绍了EEG分类问题，并概述了标准分类流程。然后描述了广泛用于EEG分类的特征类型，即原始时间序列、短时傅立叶变换(STFT)、皮尔逊相关性和加权相位滞后指数(wPLI)，并讨论了使用每种特征类型背后的基本原理。还描述了基于黎曼几何的连通性特征，它为处理试次间和被试间的变异性提供了一种数学上的方法。这些特征虽然并不详尽，但涵盖了大脑反应的关键方面，即每个大脑区域内的时间和频率信息以及大脑区域之间的相互作用。除了原始时间序列之外，所有这些特征的估计都需要多个时间点，所以这也是本教程重点关注试次分类的部分原因，而不是对每个时间点进行分类。同时进一步描述了特征选择技术和更适合婴儿EEG数据中典型样本与特征比率的分类器类型，讨论了利用单个和多个婴儿的数据进行分类器学习的问题。最后，描述了如何评估分类器性能。作为示例，研究者将这些流程应用于在听觉失匹配反应(MMR)范式下收集的婴儿EEG数据。MMR是在一系列常见或标准刺激后对异常刺激作出反应时观察到的ERP成分，广泛用于婴儿EEG研究，以评估辨别能力。此研究不对刺激本身的身份进行分类（例如/ra/vs/la/），而是对嵌入在标准刺激流（即罕见刺激与频繁刺激）中的异常刺激是否能被区分来进行分类。即使用成人EEG数据，这项分类任务也很困难，其准确率约为65%。虽然本研究重点对MMR进行分类，但提出的流程可广泛适用于各种不同的刺激和实验设计。

2.方法

2.1 EEG分类

EEG分类的目标是根据脑电数据的某些属性，在短时间内确定被试的认知状态。以看一个玩具为例，假设一个被试在多个试次中看猫或狗，我们使用刺激开始时两个通道A和B的电压振幅作为属性，以确定被试在试次中是在看猫还是狗。从图形上看，这个问题可以被概念化为在xy平面上找到一条曲线来分隔两组点（猫为绿色，狗为紫色）(图1)。每个点对应一个试次，xy坐标对应通道A和B的振幅。在找到一条能够很好地将狗对应的点与猫对应的点分开的曲线之后，可以用新的点(图1)测试该曲线，即不用于寻找曲线的试次。如果该曲线能够很好地分离新的点，那么该曲线很可能捕捉到隐藏在EEG数据中的一些真实信号模式。在技术上，通道A和B的振幅被称为特征，曲线被称为决策边界。用于查找决策边界的点称为训练样本，未用于查找决策边界的新点称为测试样本。如果决策边界在测试样本上表现良好，就可以说相应的分类器具有很高的泛化性，这是评估分类器的一个关键属性。图2总结了EEG分类涉及的主要步骤，即特征提取和选择、分类器学习和分类器评估。

图1.EEG分类描述。在此玩具示例中，每个点对应一个试次，xy坐标对应通道A和B处的电压幅值。点的颜色表示该点所属的类别，蓝色曲线表示分离两类点的方法很多。目标是学习一条仅基于给定类别标签的训练试次（绿色和紫色点）的曲线，将测试试次（浅绿色点和浅紫色点）分为相应的类别。

图2.分类流程。首先从所有试次中提取特征，试次分为训练集和测试集。然后，通过对每个特征的训练试次应用t检验，并估计给定特征p＜0.05的自举百分比，即选择频率f，来进行自举单变量特征选择。选择频率大于某个阈值fth的特征集S用于分类器学习。然后，使用学习的分类器权重w预测测试试次的标签Ip，并将其与真实情况标签lg进行比较，以评估分类器的性能。该程序通过随机试次多次重复，以评估性能的变异性。

在实际应用中，研究者通常会提取许多特征来检查大脑反应的各个方面。关键方面包括EEG时间序列的波峰和波谷的时间和幅度、不同频段的信号以及大脑区域之间的相互作用。这些方面可以通过标准特征来捕捉，例如EEG时间序列本身、时间序列的STFT、EEG通道时间序列之间的皮尔逊相关性以及wPLI。最近，基于黎曼几何的连通性特征也被用于EEG分类。第2.2节将详述这些特性。本文研究者重点关注五个代表性特征，但可以提取许多其他特征来捕捉大脑反应的类似方面。

特征提取后，下一步是将试次分为训练集和测试集，分别用于分类器学习和评估。对于典型的婴儿EEG数据，特征的数量往往超过试次的数量。通过选择更具辨别力的特征来降低特征维数可以简化分类器的学习。为此，研究者提出了一种基于自举的通用特征选择方法。但是，试次数量通常不足以进行深度学习。因此，研究者考虑了支持向量机（SVM），它在低样本-特征的数据集中具有稳健的性能。同时专注于二元分类的任务，即使用单个分类器将给定的婴儿试次分类为属于条件A或B。试次来自单个婴儿或多个婴儿，将使用单个和多个婴儿的数据进行的训练分别称为单婴儿分类器学习和多婴儿分类器学习。同时假设每个分类的试次数目相同，即平衡分类。Open Science Framework上提供了用于提取上述特征以及执行分类流程的MATLAB脚本以及相关数据集（请参见featureExtraction.m，main*.m和riemannian*.m）。

2.2特征提取

2.2.1时间序列

使用时间序列作为特征的基础是，在任务执行过程中，不同大脑区域的激活会在EEG通道中产生特定的时空电活动模式。例如，视觉刺激在枕颞通道中引起较大的负性反应，在顶点也引起正反应，这反映了枕颞偶极子的信号。因此，在理论上，可以根据试次的每个时间点每个通道的电压的响应模式作为特征来区分不同的实验条件。因此，时间序列提供了以毫秒分辨率捕获信息的功能。

使用时间序列作为特征的一个重要参数是EEG反应的预期持续时间，它定义了试次的时间长度。虽然婴儿的反应通常比成年人慢，但对视觉或听觉刺激的诱发反应可能相当快。对涉及额外处理的任务（如检测偏差或违反预期）的响应通常较慢。因此，预期响应持续时间取决于实验条件。通常只能粗略估计响应持续时间，将试次长度设置为略长于响应持续时间也无妨，因为相关性较低的时间点会在特征选择过程中被丢弃，或者在分类器学习过程中被降权。

虽然研究者在本教程中重点讨论了学习单个分类器以分离不同类别的试次的问题，但值得注意的是，可以为每个时间点学习一个单独的分类器，在可区分类别时检查响应动力学以及刺激开始后的时间。此外，被试在反应开始、形状和持续时间的内部和之间的变异性会让使用时间序列作为特征变得困难。虽然对于能诱发快速时间锁定反应的感觉刺激来说，这种变异性可能相对较小，但对于涉及额外计算的较慢感知过程，例如MMR，反应变异性可能会更加复杂。因此，试次和被试之间的相同时间点不一定相互对应，但这种对应对于使用每个时间点的电压作为分类器学习的特征很重要。为了解决这个时间对应问题，一种方法是在每次试次的短时间窗口内“平均”电压值，并将得到的平均值用作特征。事实上，STFT可以视为这种时间平均策略的扩展，如下所述。

2.2.2 短时傅里叶变换

为了处理响应中的时间变化，一种策略是将STFT应用于时间序列，即对每个试次中的短时间窗口应用傅立叶变换，其中每个通道在每个时间窗口和频率窗口处的变换时间序列的幅度被视为特征。使用STFT的基本原理源于EEG时间序列如何显示重复的时间模式。通过应用傅立叶变换，可以估计这些时间模式重复的频率。过去的研究表明，不同的频段：delta(0–4 Hz)、theta(4–7 Hz)、alpha(8–12 Hz)、beta(12–30 Hz)和gamma(30–100+Hz)参与不同的心理过程。因此，频谱中的模式可用于分类。此外，随着时间的推移，聚合电压采样会出现暂时“平滑”响应，从而增加整个试次的响应重叠。使用MATLAB的频谱图函数及其默认参数值执行STFT。由此产生的STFT特征为数据提供了约 100 ms的时间分辨率，试次长度为 700 ms。

2.2.3 皮尔逊相关性

绕过绘制时间对应关系问题的一种常见方法是使用通道之间的功能连接作为特征。根据通道时间序列之间的相似性，即波峰和波谷是否对齐，估计功能连通性。假设是，如果通道A和B的电压模式非常相似，那么这些电压时间序列起源的大脑区域就会相互作用。由于试次中的所有时间点通常用于估计连接性，因此产生的特征无法知道潜在大脑区域在哪些时间点相互作用。相反，只能得知如果估计的连接性很大，则在试次期间可能发生一些交互作用。

最简单的连接性特征是每个试次的所有通道对之间的时间序列之间的皮尔逊相关性。使用连接性进行分类的基础是，大脑区域之间的相互作用往往会随着实验条件的不同而变化，尤其是对于涉及更高认知功能的任务。使用皮尔逊相关性的一个缺点是，容易产生容积传导引起的假相关性。具体而言，来自一个源的信号通常传播到多个通道，因此在空间上接近的通道之间产生虚假的零滞后相关性。由于皮尔逊相关性是对连通性的零滞后估计，即忽略时间序列之间的时间偏移，因此容积传导引起的虚假相关将掩盖实验条件之间连通模式的差异。使这一问题进一步复杂化的是，被试之间的容积传导差异，这是由被试大脑形态的差异造成的。由此产生的与被试相关的虚假相关模式使对跨被试汇集数据进行分类器学习变得困难。为了处理容积传导，提出了许多连通性估计。下面将讨论其中的两个。

2.2.4 加权相位滞后指数

容积传导的一个重要特性是，受相同基础源影响的通道测量为零滞后。因此，可以通过使用对零滞后相关性不敏感的连通性估计来处理容积传导，但代价是丢弃真实的零滞后相互作用。其中一种连通性估计是在脑电研究中被广泛使用的wPLI。估计wPLI涉及首先计算两个通道的时间序列之间的互相关，即两个时间序列之间在不同时间偏移处的相关性。然后在频率上对互谱密度的虚部（即互相关的傅里叶变换）进行平均，以估计wPLI。由于当两个时间序列具有0o相位时（即同步且无时间偏移），交叉谱密度的虚部为零，因此wPLI对零滞后相关不敏感。

2.2.5 基于黎曼几何的连通性

黎曼几何在EEG连通性估计和分类中的应用被提出，以解释皮尔逊相关矩阵的一个经常被忽视的特性，即它们存在于协方差矩阵的空间中。在向量空间中，基本运算（如两个向量之间的减法）是它们的元素差。然而，在协方差矩阵空间中，减法成为一种非线性运算（见方框1）。由于大多数分类器学习算法都是建立在基本向量运算的基础上，因此需要使用黎曼几何将协方差矩阵转换为向量。特别是，如果使用协方差矩阵空间的“适当”减法运算从另一个协方差矩阵中减去协方差矩阵，则所得差分矩阵的元素存在于向量空间中。为了将这一概念应用于EEG分类，需要首先估计两个协方差矩阵：一个具有刺激前时间点，另一个具有刺激后时间点。然后从刺激后协方差矩阵中“减去”刺激前协方差矩阵，这还有一个额外的好处，即消除试次特定的注意漂移和刺激前协方差矩阵的其他伪影。一个复杂的情况是，减法的参考框架由刺激前协方差矩阵控制（见方框1和补充材料）。由于噪声、注意力漂移和自然变异性，刺激前协方差矩阵在各试次和被试中有所不同，因此参考框架在各试次中有所不同，所以产生的差异矩阵在各试次和被试中不具有可比性。研究者需要将所有差异矩阵纳入一个共同的参考框架，进一步减少试次间和被试间的变异性。

方框1：分类器学习通常需要估计样本之间的距离，假设特征向量位于欧氏空间中，其中两个样本之间的最短距离是连接它们的直线的长度(图3a)。然而，协方差矩阵位于非欧几里德曲面上，因此两个协方差矩阵之间的最短距离不是直线距离(图3b)。然而，曲面可以由给定点处的切平面求局部近似，因此可以使用平坦的2D地图绘制局部区域。可以通过将曲面上的相邻点投影到给定点的切面并计算其直线距离来估计曲面上相邻点之间的最短距离(图3c)。这一方法可以推广到协方差矩阵，协方差矩阵是黎曼方法的关键组成部分之一。与皮尔逊相关性相反，对于每个试次，首先估计两个协方差矩阵：一个为刺激前时间点，另一个为刺激后时间点。然后，使用称为对数映射的操作将刺激后协方差矩阵“投影”到刺激前协方差矩阵的切线空间。这种投射相当于黎曼几何中的减法，因此刺激前协方差矩阵的试次特定注意漂移和其他伪迹会从刺激后协方差矩阵中去除。然而，由于刺激前协方差矩阵通常因试次和被试而异，因此投影将位于不同的切线空间。所以需要将所有投影并行传输到公共切线空间。此操作会减少试次间和被试间的变异性。

图3.欧几里德几何与非欧几里德几何。(a)在欧几里德空间中，两点（红点和紫点）之间的最短距离是连接它们的直线（蓝色虚线）的长度。(b)在非欧几里德曲面上，两点之间的最短距离是连接它们的曲线（蓝色虚线）的长度。(c)对于相互靠近的点，可以通过在一个点（红点）找到相切平面（绿色矩形曲面），将另一个点（紫色点）投影到该相切平面上，并测量其直线距离（蓝色虚线），来近似其最短距离。

2.3 特征选择

特征选择通常在分类器学习之前执行，尤其是对于特征数量比样本数量高出几个数量级的数据集。当特征数量超过样本数量时，通常会生成一个过于复杂的曲线，该曲线很好地划分了不同类别的训练样本，但对测试样本的分类效果很差(图4a)。这样的曲线很可能是拟合了噪声，而不是学习分类的基本“概念”。通过删除分辨性较低的特征，将搜索最优决策边界的空间的维数降低，从而缓解数据过度拟合问题。去除特征的一种常见技术是单变量特征选择，它涉及对每个特征的训练样本应用t检验，并仅保留通过特定p值阈值的特征。使用0.05的阈值，因为当以单变量方式检查时，具有中等鉴别能力的特征在组合时可能对分类有用，并且它们的低鉴别能力被赋于较低的分类器权重。直接使用t检验的一个问题是，对数据的小干扰很容易在小样本设置中改变所选特征。为了提高特征选择的稳定性，通常会加入重采样，即使用随机数据子样本重复特征选择，并查看倾向于选择哪些特征。在本研究中，研究者将训练样本自举1000次，计算每个特征达到p＜0.05的自举样本百分比（该百分比通常称为选择频率），并仅保留选择频率大于某个阈值的特征(图2)。寻找稳定特征的一般重采样方法并不局限于单变量统计检验。

图4.分类器学习。每个点对应一个样本数据，其类别标签由颜色表示。深色和浅色分别对应于训练样本和测试样本。(a)在高维情况下，特别是当特征数量超过样本数量时，使用过于复杂的函数并允许分类器权重取任意大的值将导致过度拟合，即拟合测量到的噪声，因此不能很好地应用到测试样本。(b)SVM的工作原理：找到可在类别之间提供最大边界的训练样本。实线对应于在SVM损失下最能分离训练样本的超平面。

对于选择频率阈值的选择，研究者采用了两种策略。首先使用50%的宽松阈值，让分类器学习过程决定哪些特征相关性较小。其次使用专门为SVM(SVMIC)设计的信息标准从一系列阈值中选择一个最佳阈值（30–70%，增量为5%）。使用信息标准是为了选择一个阈值，以在误分类率和使用的特征数量之间取得平衡，详见方框2。自动选择频率阈值的另一种方法是执行嵌套交叉验证。嵌套交叉验证涉及将每个训练折的训练样本细分为内部训练折和测试折，并找到使内部测试折的平均内部误分类率最小化的频率阈值。因此，这项技术用分类器在内部测试样本上的可推广性用作控制过度拟合的方法。然而，嵌套交叉验证结合自举通常在计算上令人望而却步。

方框2：使用信息标准背后的想法是，不仅要根据误分类率来选择特征，还要考虑模型的复杂性（通常是特征数量的函数）。原因是：实际操作中总是可以通过增加分类器模型中的特征数量（通过降低选择频率阈值）和使用过于复杂的函数过度拟合训练样本来减少训练样本的误分类(图4a)。为了在选择最佳选择频率阈值时应用信息准则，研究者计算了每个阈值的值，并选择使信息准则最小化的阈值。该阈值将在错误分类和模型复杂性之间取得最佳平衡。对于大多数信息标准，如SVMIC，模型复杂性近似为独立特征数量的函数。然而，特征通常是相关的。因此，用分类器中使用的特征总数来近似独立特征的数量往往会高估模型的复杂性。

2.4 支持向量机

分类器学习可以看作是找到一条很好地分隔两组点的曲线(图1)。由于无限多条曲线都可以实现这一目标，问题是如何选择“最优”曲线。要决定曲线，就需要定义什么是最优的。对于分类而言，低误分类率很重要，但如第2.3节所述，仅此标准通常不足以找到一条可概括的曲线，还需要一个约束模型复杂性以控制过度拟合的标准。

SVM是一种广泛使用的分类器，它在低样本特征设置的情况下表现出了稳健的性能。SVM找到被称为支持向量的样本，最大化两个类之间的边距，并生成位于边距之间的最优超平面(图4b)。该超平面可以由分类器权重向量表示，该向量反映了每个特征对分类的关联性，并且给定特征向量与分类器权重的乘积，提供了对应样本属于某个类别程度的连续得分。基于分数符号的二值化提供了预测的类别标签。

有关SVM数学的详细信息可以在(Bishop，2006)中查阅，并且可以在MATLAB中获得SVM的有效实现。本文研究者使用fitcsvm.m及其默认参数设置，用于构建SVM。要注意，在分类器学习之前，应对特征进行归一化，以便较大幅度的特征不会主导分类器学习。通常，通过移除平均值并除以每个特征的标准偏差来执行归一化，其中仅使用训练样本来估计平均值和标准偏差，避免使用了测试样本后引入训练集和测试集之间的相关性，这可能会影响分类性能。

2.5 分类器评估

为了评估分类器，必须将其应用于分类器学习过程中未使用的测试样本，以评估其通用性。否则可以简单地使用复杂函数对所有样本进行过度拟合，以实现高分类性能(图4a)。研究者考虑了两种场景：对单被试样本进行分类和对多被试样本进行分类。对于单被试样本的情况，必须将样本分为用于分类器学习的训练集和用于分类器评估的测试集。拆分样本的一种方法是应用K折交叉验证，如下所示。首先将样本随机分成K个（近似）相等的折。然后使用例如第一个K-1折进行分类器学习，并将学习到的分类器应用于未学习的测试折。该程序重复K次，每次使用不同的遗漏测试折，以评估样品性能的变异性。

K通常设置为4、5或10，这在计算成本和评估变异性之间提供了良好的平衡。K的选择取决于可用样本的数量。将K设置为10会分配更多的样本用于训练，这在小样本设置中很重要，即难以学习样本太少的通用分类器。另一种常见的选择是将K设置为样本数，即留一法交叉验证。然而，由于需要学习更多的分类器，因此除了计算成本较高外，如果样本之间存在虚假相关性，留一法更容易高估性能。具体而言，如果测试样本与训练样本高度相关，则近似于在分类器学习期间就学习了该测试样本，这会使分类评估产生偏差。对于较小的K，也存在此问题，但程度较低，因为在实际数据中，并非所有样本都是相互且平等地相关的。以上述高度相关的样本对为例，10折交叉验证可能会将两个样本都分配给训练期间看不到的测试集，这在留一法交叉验证的情况下是不可能的。因此研究者选择使用K折交叉验证进行分类器评估。

对于具有多个被试样本的场景，应该执行K-subject-fold交叉验证。具体而言，将被试拆分为K折，对来自训练被试的样本进行分类器学习，并对来自测试被试的样本应用分类器，而不是将样本拆分为K折，其中包括来自训练被试和测试被试中相同个体的样本。这样，训练集和测试集之间的相关性将得到缓解。假设被试不相关，这是一个典型的招收标准。至于K的选择，研究者将K设置在4到10之间，而不是被试的数量（即留一法）来减少计算成本。

在将样本分为训练集和测试集并预测测试样本的标签之后，还需要确定一个标准来评估分类性能。通常，使用分类准确度，其定义为在给定测试折叠中正确分类的测试样本的分数。计算所有测试折叠的准确度，以估计性能的变异性。或者可以连接所有测试折叠的样本标签，估计单个精度值，并多次重复K折叠交叉验证，以检查性能的变异性。后一种方法的优点是在估计精度时考虑所有样本，但从经验上看，对于每次K-折叠交叉验证，单个精度估计和测试折叠的平均精度往往非常相似。注意到，在二元分类的情况下，如果分类器没有学习任何东西，那么它相当于随机猜测类别标签，即掷硬币，因此随机的准确率将为50%。然而，给定有限的样本，对于随机分类，跨‘折’的估计平均准确率可能不到50%。所以，在评估分类器性能时，还应考虑估计精度的标准误差。

另一个常用的分类器评估指标是被试工作特性曲线下的面积（AUROC）。通过计算分类得分（即样本属于给定类别的程度）不同阈值下的真阳性率（TPR）和假阳性率（FPR）来估计AUROC，以生成ROC。TPR是分类器正确标记为阳性的阳性样本数除以数据中所有的阳性样本数，FPR是分类器错误标记为阳性的阴性样本数除以数据中所有的阴性样本数。AUROC范围为0到1，随机性值为0.5。使用AUROC的好处是，它为分类器评估提供了一个对阈值不敏感的标准。然而，在需要为每个样本提供清晰的二进制标签的应用程序中，不能使用多个阈值，如果使用阈值a，就说一个样本是A类，如果使用阈值b，就说一个样本是B类。相反，必须使用最能分隔训练样本的最佳阈值，在这种情况下，准确度更适合作为评估指标，因为它可以直接评估基于最佳阈值的预测标签与真实值标签的匹配程度。

3.数据集

3.1 EEG数据采集

使用了40名12个月大、在英语环境中长大的婴儿的数据。在EEG记录过程中，测试了婴儿辨别两种母语英语音素/ra/vs/la/的能力。

记录数据过程中，以一个音节作为标准，以1 Hz的频率重复出现。在实验开始时，标准音节至少重复4次后，偏离音节约有18%的时间随机出现。

3.2 EEG数据预处理

研究者选择执行最小数据清理，以避免引入偏差或以影响分类性能的方式改变EEG数据。原始EEG数据导出为.mat文件，并使用BEAPP执行初始预处理。PrepPipeline工具箱用于消除线噪声（通过cleanline函数），检测和插值坏导，并将EEG数据重新引用到平均参考值。为了更准确地检测噪声通道，预处理在稳定地平均重参考和相对于该平均参考的坏导的检测和插值之间交替进行。如果10个以上的通道被识别为坏导，则剔除此数据。数据进行重参考后，对EEG数据进行0.1至100 Hz的带通滤波。BEAPP使用EEGlab函数eegfiltnew，该函数对数据应用汉明窗sinc有限脉冲响应(FIR)滤波器。然后将EEG时间序列分为700 ms长的试次，音节开始于试次开始后 100 ms。该时间窗的长度由单变量分析决定。使用更宽的窗口来解释个体处理速度的差异。此外，还包括了基线数据，以提供与大脑反应的对比，这可以用来改进连通性估计。电压偏差大于 200 uV的试次不使用。对于每个被试，所包括的标准试次的数量与偏差试次的数量相匹配，以平衡类别。

4.结果

将提出的分类流程（见main*.m和riemannian*.m）应用于40名12个月大婴儿的EEG数据，以预测婴儿在经典的听觉oddball范式中是否听到标准声音与偏差声音。对于每个婴儿，将每个偏差试次与前一个标准试次配对，以确保类别平衡，结果是每个婴儿大约有50个标准试次和50个偏差试次。选择使用前一标准试次，因为前一标准试次的噪声背景与给定偏差试次的噪声背景最为相似。如果偏差刺激没有影响，与其他标准试次相比，这个标准试次的选择会使分类最困难且偏差最小。每个试次包括来自60个EEG通道的700 ms时间段，研究者从中提取各种特征，包括时间序列本身、STFT、皮尔逊相关、wPLI和基于黎曼几何的连通性。为了说明婴儿数据分类面临的挑战，研究者首先使用AVM对每个婴儿的数据分别进行分类和特征选择。至于评估，研究者进行了10折交叉验证，并使用准确度作为评估指标。婴儿的平均准确率如图5a所示（每个婴儿的准确率见图7）。对于大多数婴儿来说，准确率为50%或更低，这说明了该分类任务的难度，尤其是在低信噪比和样本数量有限的情况下。

为了进行评估，研究者再次使用了十折交叉验证，但没有设置10%的试次（为验证集），而是随机留每一折10%的婴儿，以避免训练集和测试集中样本之间的相关性。为了说明分类精度往往随婴儿不同的分类而不同，研究者明确地绘制了来自5次10折交叉验证的单独条形图。除基于黎曼几何的连通性略高于50%外，其他方法的被试折的平均准确度都是50%的偶然水平。这一结果表明，仅增加样本量是不够的，可能是因为信噪比太低，无法对每个试次进行分类。

为了提高信噪比，研究者采用了传统EEG分析中使用的策略，即平均每个婴儿的试次。然而，由于注意力漂移等因素，试次平均可能会引入分类偏差。特别是，使用滑动窗口策略平均去时间上相邻的试次将导致偏差，因为实验开始时的试次与结束时的试次截然不同，如图5b所示。特别是，时间上接近的试次倾向于聚集在一起，这表明它们具有相似的特征向量，而时间上相距远的试次倾向于落在不同的群中。因此，研究者选择以（大致）均匀的时间间隔对H=10个试次进行平均取样，即偏差试次h、h+5、…、h+40和h+45的平均值为h=1-5，标准试次也是如此。将H设置为10可减少未使用的试次数目，即50改为10=0。图6a显示了H设置为10时，20次10折交叉验证的平均精度。只有黎曼方法在使用SVMIC来选择最佳选择频率阈值效果较好。原因是使用SVMIC时需要估计独立特征的数量（见方框2）。具体而言，将协方差矩阵引入向量空间具有解耦连通性特征的效果。因此，与对比特征相比，基于黎曼几何的连通特征的数量将更接近于对独立特征数量的估计。特别是，时间序列和STFT易于在附近的时间点之间进行关联。皮尔逊相关矩阵的元素在数学上是相互关联的，作为wPLI估计的中介的互谱密度矩阵也是如此。因此，此报告仅使用黎曼方法的SVMIC的准确性。研究者注意到H的另一个选项是将其设置为5，但根据经验发现，分类的信噪比不足。本研究还测试了4折交叉验证，这导致时间序列的精确度相似，STFT、wPLI和黎曼方法的精确度较低，皮尔逊相关的精确度较高，但仍接近偶然水平。4折交叉验证的准确率下降的原因可能是分类器学习的每折训练样本较少。通过对婴儿进行试次平均和数据汇总，一些特征的平均分类准确率高于机会水平(图6a)。虽然以时间序列为特征的20次10折交叉验证的平均准确率保持在偶然水平，但STFT的平均准确率增加到54%。使用皮尔逊相关性的准确率仍略低于偶然水平，这可能是因为婴儿的容积传导差异超过了连接模式，而使用对容积传导不敏感的wPLI的平均准确率为57%。使用基于黎曼几何的连通性也达到了57%的平均准确率，证明了考虑注意力漂移和被试间变异性的好处。为了检验准确度是否在统计学上高于概率水平，以真实值等级标签为参考，对每次运行的测试折进行Fisher精确检验，并计算p＜0.05时显著的测试折比例。对于时间序列和皮尔逊相关，没有测试折是显著的。相比之下，35%、85%和45%的测试折的准确度分别显著高于STFT、wPLI和黎曼方法的随机水平。此外，为了评估wPLI和黎曼法提高的准确性是否具有统计学意义，研究者对每次运行的每个测试折都进行了McNemar检验，并计算了在p＜0.05时精度显著提高的测试折叠的比例。每个测试折平均而言，wPLI和黎曼法相对于时间序列、STFT和Pearson相关法准确率分别高了9%和12%(图6b)。但统计学上显著的测试折比例较低，可能是因为应用McNemar检验时，每个测试折中的样本数量较少。而Wilcoxon符号秩检验也广泛用于比较不同方法的准确性。该方法涉及以每个折的精度为样本，或以每次K折交叉验证的平均精度为样本。然而，在应用Wilcoxon符号秩检验时，折之间的相关性和K-折交叉验证的运行违反了独立样本假设，因此p值会被低估。事实上，由于折和运行之间的相关性，精度估计的标准误差（即图6a中的误差条）也被低估，因此对每次运行的测试折应用Fisher精确检验，以评估精度是否显著高于偶然水平。

图5.分类器通过对每个婴儿的试次进行学习。

图6.分类器对婴儿汇集试次进行学习。(a)显示20次10折交叉验证的平均精度。误差条对应于整个运行中的标准误差。(b)McNemar检验应用于每个遗漏的折，以测试每个参考方法的分类是否比其他方法更准确。显示了使用参考方法更精确的20次运行中的折比例。

通过提取每个婴儿的预测试次标签并估计每个婴儿的单独准确度值（而不是平均每个被试折的准确度），进一步评估了多婴儿分类器学习在单个婴儿水平上的表现。除了使用皮尔逊相关性外，与每个婴儿的试次相比，对婴儿进行合并试次后进行的分类器学习显著提高了使用每个婴儿试次进行分类器学习的精度(图7)。重要的是，对于wPLI，准确度高于随机水平的婴儿比例从0.4增加到0.75，基于黎曼连接特征的婴儿比例从0.55增加到0.80，这证明了婴儿试次进行合并的好处，前提是容积传导和被试间差异等得到了适当的考虑。

图7.单个婴儿水平的准确度细分。x轴和y轴分别对应于单婴儿和多婴儿分类器学习获得的准确度。每个点代表一个婴儿。红色虚线对应于随机水平的准确度。灰色虚线上方的点表示多婴儿分类器学习的准确性提高，反之亦然。

5.讨论

在这篇机器学习入门教程中，研究者描述了对婴儿EEG数据进行分类所涉及的步骤，即特征提取、特征选择、分类器学习和分类器评估。要分离婴儿对罕见和频繁听觉刺激的神经反应，且达到高于偶然水平的准确性是较为困难的。这项工作是首次用婴儿数据证明MMR分类。平均分类精度虽然不高，但高于随机水平，与前人婴儿EEG研究一致。对于当前的MMR分类任务，wPLI和黎曼方法表现出最好的分类性能，平均精度达到57%。此外，具有上述随机分类精度的婴儿比例大于75%。考虑到计算成本，如果目标是测试连接性是否可以区分不同的实验条件，建议首先测试wPLI，它计算速度更快，并且专注于EEG时间序列之间的非零滞后相似性，对容积传导不敏感。如果精度不够，那么可以考虑黎曼方法。虽然黎曼方法仅估计零滞后相关性，但它考虑了容积传导，明确地解释了试次特有的混淆以及试次间和被试间的变异性。

婴儿数据具有相对较低的信噪比、每个婴儿的试次较少、被试间和试次间的变异性较高的特点，使得ML的应用变得困难。虽然解决一个问题时采取的措施可能会加剧另一个问题，但结合试次平均确实可以提高当前分类任务的性能。由于发育过程中大脑成熟和形态的差异，被试间的变异性在婴儿数据中尤其高，可能会掩盖EEG中的区分信号。特别是在此文中的分类任务MMR中，也称失匹配负波，在成年人中观察到负电压，但在婴儿早期中观察到正电压。这种电压取决于大脑成熟度及实验任务难度。所有婴儿可能表现出正性或者负性的失匹配反应，这可能解释了少数婴儿的准确率实际上更高，分类器使用他们自己的试次中学习的，而不是汇总的数据。但通过使用wPLI和平行运输来解释被试间的差异，对婴儿进行的汇总试次平均提供了更高的准确性。

单个婴儿分类器学习的准确性平均低于偶然水平，这表明分类器在导致错误分类的试次中发现了非随机模式。特别是，EEG时间序列是自相关的，婴儿数据中的自相关量可能会由于更多的注意力漂移、对刺激的习惯化以及随时间增加的婴儿运动和烦躁而导致的SNR变化而加剧。因此，即使它们属于不同的类别，时间上临时相邻的试次也可能被错误地归类为同一类别。事实上，并非真正独立的试次在EEG分类中存在潜在缺陷。如图4b所示，试次在实验中按时间顺序进行聚类。如果两组刺激一个接一个地呈现而不是分散呈现，分类器可能会使用时间顺序而不是刺激诱发的反应模式来区分试次。因此，实验设计需要非常仔细以减少相关样本对分类的影响。

鉴于认知的复杂性，任何描述的特征（以及更多）都可能包含对不同刺激进行分类所需的信息。这些特征中的每一个都使研究者能够从不同的角度去探索神经过程，它们的相对性能部分取决于分类任务，部分取决于哪些噪声占主导地位。虽然所描述的分类流程没有揭示有助于分类的特定时间点或连接，但可以执行一些后续分析来解决这个问题。从分类结果中获得见解的另一种方法涉及将准确度与行为得分相关联，以及在各组之间对比准确度。

本研究专注于二元分类，但对额外刺激类别的分类可以进一步深入了解婴儿的心理活动。此外，可以研究分类器对看不见的类的泛化性来加深了解。在这种情况下，可以使用二元或多元分类来训练EEG数据上的分类器，以响应给定的刺激集。然后将此分类器应用至不同的刺激集下的数据，以检测分类器对新刺激的性能。

总之，机器学习可以解决许多新问题。使用标准的组分析，不必简单地探索在任何给定通道或多个通道中，对A的EEG反应与对B的EEG反应是否有显著差异，而是可以研究心理表征是否包含区分不同刺激的信息。机器学习为发展认知神经科学提供了新的工具，以回答传统组分析无法回答的问题。

原文：A practical guide to applying machine learning to infant EEG data.

https://doi.org/10.1016/j.dcn.2022.101096

文章来源于微信公众号（茗创科技），欢迎有兴趣的朋友搜索关注。