夜雨聆风资源网-鸟歌沿着神经轨迹生成

鸟歌沿着神经轨迹生成

一只斑胸草雀开口唱歌时，声音听起来是一串短促、熟练、几乎固定的音节。

在鸣唱通路里，神经群体活动沿着低维空间移动。轨迹先进入一个音节对应的状态区域，再滑向下一个区域；遇到概率分叉时，轨迹在声音真正转向之前已经带出下一步的倾向。

研究者把 Neuropixels 探针植入雄性斑胸草雀，同时记录鸣唱通路中两个关键脑区的群体活动。Neuropixels 是高密度硅电极探针，一根探针上排列许多记录位点，可以同时采到一片神经组织里的群体放电。两个脑区分别是 HVC 和 RA。HVC 在现代鸣禽脑区命名里常作为专名使用，历史来源是 high vocal center；它位于歌声运动通路上游，参与歌声序列、感觉输入和运动计划。RA 的全名是 robust nucleus of the arcopallium，属于鸟类弓状皮质相关的运动核团；它更靠近下游发声输出，直接投向控制呼吸和鸣管肌肉的脑干运动神经元。

HVC 和 RA 的群体活动都能被描述为低维神经流形上的时间轨迹。不同音节对应流形上的不同状态区域，轨迹还能预测音节之间的转移。RA 的轨迹更稳定、更紧贴最终声音；HVC 的轨迹更可变，混合了更多上游输入、感觉整合和序列控制。

鸟歌由一整群神经元沿着稳定轨迹共同生成。

图 1，研究者用一根 Neuropixels 探针同时覆盖 HVC 和 RA，并把神经放电与斑胸草雀自己的歌声对齐。图中可以看到音频波形、声谱图，以及 HVC/RA 神经元在歌声中的时序放电。

神经群体承载歌声

传统鸟歌研究很容易从单个神经元入手。

某个 HVC 投射神经元在歌曲某个瞬间爆发，某个 RA 神经元在某个音节附近放电增强，这些结果让人看到歌声和神经活动之间有精确时间关系。完整的鸟歌控制还需要呼吸、鸣管肌肉、序列记忆、听觉反馈和社会情境一起协调。

斑胸草雀的歌声由多个 motif 组成。motif 是一只鸟反复唱出的基本歌句，里面再分成几个短音节，论文称为 syllables。音节通常只有几十毫秒，顺序高度熟练，同时保留概率分叉。一个音节后面可能接另一个音节，也可能接停顿；有些位置稳定转移，有些位置会在几种后续之间切换。

这类动作属于群体动力学问题。运动皮层研究已经反复显示，行为变量常由神经群体活动在低维空间里的轨迹承载。这个低维空间就是 neural manifold，神经流形。流形是一种数学描述，用少数潜在维度捕捉许多神经元共同变化的主要方向。记录到的神经元很多，每个神经元都在放电，群体共同变化的自由度却集中在少数维度上。

鸟歌把这套动力学框架推向自然发声行为。它自然发生、学习得到、时间结构精细、声音输出连续。斑胸草雀的歌声又足够稳定，每只鸟有自己的歌，重复时保留可比较的结构。研究者因此可以在自然鸣唱中对齐神经活动和行为输出。

一根探针穿过两个脑区

研究者在自由鸣唱的斑胸草雀中进行慢性记录，用高密度 Neuropixels 硅探针同时采集 HVC 和 RA 的胞外活动，并同步记录鸟自己的歌声。每次记录从术后 12 到 24 小时开始，持续 120 到 240 分钟。鸟在声学隔离箱里活动和鸣唱，头部植入物的重量由一个 1.5 g 的配重减轻负担。

样本规模是4 只雄性斑胸草雀。RA 在 4 只鸟中都成功记录；HVC 和 RA 的同步记录主要来自 bird A 和 bird B；bird C 得到 RA-only 记录；bird D 部分命中 HVC，神经元数量没有达到 HVC 群体分析所需规模。

这项实验依赖单只动物内的细粒度神经-声学对齐。

记录结果有足够的群体规模。

RA 内平均覆盖 82±2 个电极位点，范围 80-85。
HVC 内平均覆盖 36±22 个电极位点，范围 9-64。
每次记录中可稳定分离的 RA 神经簇平均 105±45 个，范围 57-179。
HVC 神经簇平均 59±47 个，范围 7-121。

这些神经簇包括单单位活动和多单位活动。单单位活动通常更接近一个神经元的放电，多单位活动则混合了附近多个神经元。HVC 的单单位还进一步按放电特征分成推定的 HVC projection neurons 和 HVC interneurons。projection neurons 指向外投射的神经元，interneurons 指局部中间神经元。前者通常稀疏、爆发式，后者更持续地参与歌声期间的时序调制。

声音端记录音频波形和声谱图。研究者人工标注 song bout、motif、syllable 的起止。song bout 是一段连续鸣唱，motif 是其中重复出现的歌句，syllable 是更短的音节单元。神经放电再按毫秒级时间窗对齐到这些歌声结构上。神经群体状态和音节、音节内部声学变化、分叉后的后续选择由此进入同一条时间轴。

GPFA 把放电变成轨迹

每个神经元都可以作为一个维度。神经群体活动在这个视角下是一个高维点，每过一个时间片移动一次。高维点的移动难以直接比较，低维流形提供了更稳定的坐标。

研究者使用高斯过程因子分析Gaussian-Process Factor Analysis，简称 GPFA，来估计 HVC 和 RA 的低维神经流形。这个名字可以译成高斯过程因子分析。它是一种带时间平滑的降维模型，把一堆神经放电压成少数潜在因子，同时估计这些因子随时间连续变化的轨迹。这个处理适合鸟歌，因为歌声本身就是时间展开的行为。

GPFA 从 spike train 中提取共同变化的潜在因子。spike train 是神经元随时间放电的序列，一串标出放电时刻的时间戳。每个潜在因子对应一个神经模式，多个神经模式组合起来，解释一群神经元在歌唱时如何一起变化。研究者测试了从 2 到 48 维的流形，并在后续分析中常用 12 维潜在轨迹。

这个步骤区分两种可能。第一种把群体结构看成平均之后才出现的表象，每个神经元各自波动，整体统计量才显得和歌声有关。第二种认为神经群体受低维动力学约束，单个神经元的放电是共同轨迹投到不同细胞上的结果。

结果支持第二种。HVC 和 RA 的群体活动都能在低维流形上形成随歌声推进的轨迹，这些轨迹带有清楚的时间结构。

图 2，神经流形假说。大量神经元的放电可以被压缩为少数潜在神经模式；歌声生成时，群体状态沿着这个低维空间形成时间轨迹。GPFA 被用来从 HVC 和 RA 的放电中估计这些轨迹。

RA 贴近声音输出

HVC 和 RA 的轨迹形状直接显出差异。

同一只鸟重复唱相似 motif 时，RA 的低维轨迹更稳定、更收束。不同重复之间的轨迹在同一条轨道附近反复经过。只看 RA 的群体状态，研究者就能更清楚地看到正在唱哪个音节、音节进行到哪里。

HVC 也有时间结构，轨迹更松、更分散。这个差异对应两个脑区在鸣唱通路中的位置。

RA 更靠近运动输出。它投向脑干运动神经元，最终控制呼吸系统和鸣管肌肉。声音要变成空气振动，必须经过这些外周执行器。因此，RA 的神经状态和声音之间出现更连续、更唯一的对应关系。

HVC 处在更上游的位置。它把序列推进、感觉输入、不同输出通路和局部网络活动混在一起。它向 RA 投射，也通过 Area X 等前脑通路参与学习和变异调节。Area X 是鸣禽前脑学习通路里的基底节样核团，常和歌声学习、变异和反馈修正联系在一起。HVC 还接收听觉相关输入。一个上游脑区同时承担序列、感觉整合和运动准备，它的轨迹自然带有更混合的状态成分。

这个结果把两个区域的边界拆开了。RA 的轨迹更容易解码声音，说明它更贴近运动执行；HVC 更可变，说明它承担更复杂、更混合的控制职能。可变性在这里可以是上游脑区保留未来路径的方式。

图 3，同一段鸟歌中的 HVC 与 RA 低维轨迹。颜色对应不同音节。RA 轨迹更平滑、更可重复；HVC 轨迹更分散，并保留清楚的时间结构。

音节在流形上分区

神经流形需要和行为结构对上。

研究者把潜在轨迹按音节起止切分成多个神经状态片段，再比较这些片段之间的距离。同一个音节的神经状态彼此更接近，不同音节之间更远，说明流形坐标携带了歌声结构。

无论 HVC 还是 RA，属于不同音节的神经状态差异都显著大于属于同一音节的状态差异。同一个音节在神经流形上反复经过相近区域，不同音节落在不同区域。

RA 的区分更强。这个结果和前面的轨迹稳定性一致。RA 整体更稳定，对音节身份的状态分离也更清楚。

图 4，HVC 和 RA 的流形状态会随音节不同而改变。同一音节的状态距离较小，不同音节的状态距离较大；RA 中这种分离更强。

鸟歌音节包含连续声学形状，包含频率纹理、振幅包络、起音、收尾和过渡。神经状态能分开音节，说明它抓到了离散结构；连续声音本身还需要进一步重建。

论文继续把问题推进到音节之间的分叉处。神经轨迹能否提前带出下一步选择，成为下一层检验。

分叉点携带下一步

斑胸草雀的歌声有很多确定转移，也有一些概率转移。

音节 2 后面总是音节 3 时，当前音节已经足以预测后续。真正有信息量的是 branch point，也就是同一个音节后面可能接不同结果的位置。例如 bird A 的某个音节 5 后面，可能接音节 1，也可能接音节 6，也可能直接停下。

研究者把这些分叉点标出来，然后训练 Fisher 线性判别分析，用 HVC 或 RA 的潜在状态去预测实际发生的转移类型。Fisher 线性判别分析是一种线性分类方法，会寻找一条最能把不同类别分开的投影方向。模型沿着时间逐点估计当前神经状态对哪种转移支持更强。

HVC 和 RA 的潜在状态都能以较高可靠性和时间精度预测这些概率转移。在声音真正转向之前，神经轨迹已经带着接下来那条路径的信息。

这让“歌声序列”这个词变得更具体。分叉点附近的群体状态携带转移倾向。鸟歌是一条有岔路的轨道，当前状态决定了下一步更容易滑向哪里。

图 5，不同鸟的歌声状态图和分叉点预测。研究者在概率转移位置对齐 HVC/RA 潜在轨迹，用线性判别模型估计下一步转移类型；后验概率在分叉附近明显高于先验概率。

连续声音重建

很多脑机接口式的语音或发声研究，会把问题做成分类任务，预测某个音素、词、音节，或者某个离散状态。

声音本身是连续波形。每个音节都有声谱图纹理，发声器官的状态也在毫秒尺度上变化。只预测“现在是第几个音节”，距离真正的发声控制还有一层。

这篇论文因此设计了一个连续鸟歌解码器，叫 EnSongdec。这个名字来自 encoder-song-decoder 的组合，用来把神经活动接到可重建的鸟歌声音上。

它的思路是把神经活动映射到鸟歌的音频嵌入，再用预训练音频编解码器的后半部分把嵌入还原成波形。这里用到的 EnCodec 是一种神经音频编解码器，会先把波形压成可重建的音频表示，再从这个表示还原声音。流程分成三步。

用 EnCodec 的编码器把鸟歌音频压成 128 维音频嵌入。
用前馈神经网络把 HVC 或 RA 的神经输入映射到这些音频嵌入。
再通过量化器和解码器，把预测出的嵌入合成为连续时间波形。

神经输入有两种版本，一种直接用 spike train，另一种用 GPFA 得到的神经潜在轨迹。每种输入又分别来自 HVC 或 RA。训练时使用每只鸟每次记录中 80% 的 motif，剩下 20% 测试，并用一部分训练数据做验证。网络本身较小，包含两个 64 单元隐藏层，输出 128 维音频嵌入；输入端包含大约 15-20 ms 的神经历史。

这个设计把声音重建拆成两个职能。

神经网络负责从神经状态预测鸟歌嵌入。
音频编解码器负责把嵌入还原成可播放波形。

真正被检验的是 HVC/RA 的神经状态里是否有足够连续声学信息。

结果给出了肯定答案。用 HVC 或 RA 的 spike train 和潜在轨迹，都能重建出高保真的连续鸟歌声谱图，而且明显好于时间打乱的控制条件。RA 解码表现通常优于 HVC，这再次说明 RA 更接近最终声学输出。

潜在轨迹形成稳定接口

脑机接口有一个实际问题。今天记录到的神经元，明天可能换成另一组。同一块脑区里，电极漂一点、组织反应变一点，单个神经元集合就会变。一个只记住具体神经元到声音对应关系的模型，很容易因为神经元更替而失效。

神经群体被限制在稳定流形上时，接口可以绑定到群体状态。记录到另一半神经元时，同一个群体网络理论上也能恢复相似的潜在轨迹。具体神经元换了，流形结构还在。

研究者用一个很直接的方式测试这点。他们把同一脑区记录到的神经元随机分成两半。模型先用其中一半训练，再用另一半测试。因为两半神经元对应的坐标系存在差异，他们用 Canonical Correlation Analysis 做对齐。Canonical Correlation Analysis 通常译作典型相关分析，用来把两组变量中最相互对应的变化方向找出来。

结果显示，在两只鸟、HVC 和 RA 的四组比较中，有三组里，基于神经潜在轨迹的解码器跨子群泛化显著好于基于 spike train 的解码器。直接用 spike train 时，模型更依赖具体神经元；用 GPFA latent 时，模型抓到的是更抽象、更稳定的群体状态。

低维流形在这里具有工程意义。未来发声神经假体可以尝试对齐到稳定的群体动力学坐标，减少电极状态变化、神经元采样变化带来的损伤。

论文关键词里写了 vocal neuroprostheses。斑胸草雀实验离人类语音假体还有物种、任务和临床场景上的距离。它已经给出一个明确原则，发声行为的控制接口可以从单个细胞上移到群体动力学。