鸟歌沿着神经轨迹生成
一只斑胸草雀开口唱歌时,声音听起来是一串短促、熟练、几乎固定的音节。
在鸣唱通路里,神经群体活动沿着低维空间移动。轨迹先进入一个音节对应的状态区域,再滑向下一个区域;遇到概率分叉时,轨迹在声音真正转向之前已经带出下一步的倾向。
研究者把 Neuropixels 探针植入雄性斑胸草雀,同时记录鸣唱通路中两个关键脑区的群体活动。Neuropixels 是高密度硅电极探针,一根探针上排列许多记录位点,可以同时采到一片神经组织里的群体放电。两个脑区分别是 HVC 和 RA。HVC 在现代鸣禽脑区命名里常作为专名使用,历史来源是 high vocal center;它位于歌声运动通路上游,参与歌声序列、感觉输入和运动计划。RA 的全名是 robust nucleus of the arcopallium,属于鸟类弓状皮质相关的运动核团;它更靠近下游发声输出,直接投向控制呼吸和鸣管肌肉的脑干运动神经元。
HVC 和 RA 的群体活动都能被描述为低维神经流形上的时间轨迹。不同音节对应流形上的不同状态区域,轨迹还能预测音节之间的转移。RA 的轨迹更稳定、更紧贴最终声音;HVC 的轨迹更可变,混合了更多上游输入、感觉整合和序列控制。
鸟歌由一整群神经元沿着稳定轨迹共同生成。

神经群体承载歌声
传统鸟歌研究很容易从单个神经元入手。
某个 HVC 投射神经元在歌曲某个瞬间爆发,某个 RA 神经元在某个音节附近放电增强,这些结果让人看到歌声和神经活动之间有精确时间关系。完整的鸟歌控制还需要呼吸、鸣管肌肉、序列记忆、听觉反馈和社会情境一起协调。
斑胸草雀的歌声由多个 motif 组成。motif 是一只鸟反复唱出的基本歌句,里面再分成几个短音节,论文称为 syllables。音节通常只有几十毫秒,顺序高度熟练,同时保留概率分叉。一个音节后面可能接另一个音节,也可能接停顿;有些位置稳定转移,有些位置会在几种后续之间切换。
这类动作属于群体动力学问题。运动皮层研究已经反复显示,行为变量常由神经群体活动在低维空间里的轨迹承载。这个低维空间就是 neural manifold,神经流形。流形是一种数学描述,用少数潜在维度捕捉许多神经元共同变化的主要方向。记录到的神经元很多,每个神经元都在放电,群体共同变化的自由度却集中在少数维度上。
鸟歌把这套动力学框架推向自然发声行为。它自然发生、学习得到、时间结构精细、声音输出连续。斑胸草雀的歌声又足够稳定,每只鸟有自己的歌,重复时保留可比较的结构。研究者因此可以在自然鸣唱中对齐神经活动和行为输出。
一根探针穿过两个脑区
研究者在自由鸣唱的斑胸草雀中进行慢性记录,用高密度 Neuropixels 硅探针同时采集 HVC 和 RA 的胞外活动,并同步记录鸟自己的歌声。每次记录从术后 12 到 24 小时开始,持续 120 到 240 分钟。鸟在声学隔离箱里活动和鸣唱,头部植入物的重量由一个 1.5 g 的配重减轻负担。
样本规模是4 只雄性斑胸草雀。RA 在 4 只鸟中都成功记录;HVC 和 RA 的同步记录主要来自 bird A 和 bird B;bird C 得到 RA-only 记录;bird D 部分命中 HVC,神经元数量没有达到 HVC 群体分析所需规模。
这项实验依赖单只动物内的细粒度神经-声学对齐。
记录结果有足够的群体规模。
RA 内平均覆盖 82±2 个电极位点,范围 80-85。 HVC 内平均覆盖 36±22 个电极位点,范围 9-64。 每次记录中可稳定分离的 RA 神经簇平均 105±45 个,范围 57-179。 HVC 神经簇平均 59±47 个,范围 7-121。
这些神经簇包括单单位活动和多单位活动。单单位活动通常更接近一个神经元的放电,多单位活动则混合了附近多个神经元。HVC 的单单位还进一步按放电特征分成推定的 HVC projection neurons 和 HVC interneurons。projection neurons 指向外投射的神经元,interneurons 指局部中间神经元。前者通常稀疏、爆发式,后者更持续地参与歌声期间的时序调制。
声音端记录音频波形和声谱图。研究者人工标注 song bout、motif、syllable 的起止。song bout 是一段连续鸣唱,motif 是其中重复出现的歌句,syllable 是更短的音节单元。神经放电再按毫秒级时间窗对齐到这些歌声结构上。神经群体状态和音节、音节内部声学变化、分叉后的后续选择由此进入同一条时间轴。
GPFA 把放电变成轨迹
每个神经元都可以作为一个维度。神经群体活动在这个视角下是一个高维点,每过一个时间片移动一次。高维点的移动难以直接比较,低维流形提供了更稳定的坐标。
研究者使用高斯过程因子分析Gaussian-Process Factor Analysis,简称 GPFA,来估计 HVC 和 RA 的低维神经流形。这个名字可以译成高斯过程因子分析。它是一种带时间平滑的降维模型,把一堆神经放电压成少数潜在因子,同时估计这些因子随时间连续变化的轨迹。这个处理适合鸟歌,因为歌声本身就是时间展开的行为。
GPFA 从 spike train 中提取共同变化的潜在因子。spike train 是神经元随时间放电的序列,一串标出放电时刻的时间戳。每个潜在因子对应一个神经模式,多个神经模式组合起来,解释一群神经元在歌唱时如何一起变化。研究者测试了从 2 到 48 维的流形,并在后续分析中常用 12 维潜在轨迹。
这个步骤区分两种可能。第一种把群体结构看成平均之后才出现的表象,每个神经元各自波动,整体统计量才显得和歌声有关。第二种认为神经群体受低维动力学约束,单个神经元的放电是共同轨迹投到不同细胞上的结果。
结果支持第二种。HVC 和 RA 的群体活动都能在低维流形上形成随歌声推进的轨迹,这些轨迹带有清楚的时间结构。

RA 贴近声音输出
HVC 和 RA 的轨迹形状直接显出差异。
同一只鸟重复唱相似 motif 时,RA 的低维轨迹更稳定、更收束。不同重复之间的轨迹在同一条轨道附近反复经过。只看 RA 的群体状态,研究者就能更清楚地看到正在唱哪个音节、音节进行到哪里。
HVC 也有时间结构,轨迹更松、更分散。这个差异对应两个脑区在鸣唱通路中的位置。
RA 更靠近运动输出。它投向脑干运动神经元,最终控制呼吸系统和鸣管肌肉。声音要变成空气振动,必须经过这些外周执行器。因此,RA 的神经状态和声音之间出现更连续、更唯一的对应关系。
HVC 处在更上游的位置。它把序列推进、感觉输入、不同输出通路和局部网络活动混在一起。它向 RA 投射,也通过 Area X 等前脑通路参与学习和变异调节。Area X 是鸣禽前脑学习通路里的基底节样核团,常和歌声学习、变异和反馈修正联系在一起。HVC 还接收听觉相关输入。一个上游脑区同时承担序列、感觉整合和运动准备,它的轨迹自然带有更混合的状态成分。
这个结果把两个区域的边界拆开了。RA 的轨迹更容易解码声音,说明它更贴近运动执行;HVC 更可变,说明它承担更复杂、更混合的控制职能。可变性在这里可以是上游脑区保留未来路径的方式。

音节在流形上分区
神经流形需要和行为结构对上。
研究者把潜在轨迹按音节起止切分成多个神经状态片段,再比较这些片段之间的距离。同一个音节的神经状态彼此更接近,不同音节之间更远,说明流形坐标携带了歌声结构。
无论 HVC 还是 RA,属于不同音节的神经状态差异都显著大于属于同一音节的状态差异。同一个音节在神经流形上反复经过相近区域,不同音节落在不同区域。
RA 的区分更强。这个结果和前面的轨迹稳定性一致。RA 整体更稳定,对音节身份的状态分离也更清楚。

鸟歌音节包含连续声学形状,包含频率纹理、振幅包络、起音、收尾和过渡。神经状态能分开音节,说明它抓到了离散结构;连续声音本身还需要进一步重建。
论文继续把问题推进到音节之间的分叉处。神经轨迹能否提前带出下一步选择,成为下一层检验。
分叉点携带下一步
斑胸草雀的歌声有很多确定转移,也有一些概率转移。
音节 2 后面总是音节 3 时,当前音节已经足以预测后续。真正有信息量的是 branch point,也就是同一个音节后面可能接不同结果的位置。例如 bird A 的某个音节 5 后面,可能接音节 1,也可能接音节 6,也可能直接停下。
研究者把这些分叉点标出来,然后训练 Fisher 线性判别分析,用 HVC 或 RA 的潜在状态去预测实际发生的转移类型。Fisher 线性判别分析是一种线性分类方法,会寻找一条最能把不同类别分开的投影方向。模型沿着时间逐点估计当前神经状态对哪种转移支持更强。
HVC 和 RA 的潜在状态都能以较高可靠性和时间精度预测这些概率转移。在声音真正转向之前,神经轨迹已经带着接下来那条路径的信息。
这让“歌声序列”这个词变得更具体。分叉点附近的群体状态携带转移倾向。鸟歌是一条有岔路的轨道,当前状态决定了下一步更容易滑向哪里。

连续声音重建
很多脑机接口式的语音或发声研究,会把问题做成分类任务,预测某个音素、词、音节,或者某个离散状态。
声音本身是连续波形。每个音节都有声谱图纹理,发声器官的状态也在毫秒尺度上变化。只预测“现在是第几个音节”,距离真正的发声控制还有一层。
这篇论文因此设计了一个连续鸟歌解码器,叫 EnSongdec。这个名字来自 encoder-song-decoder 的组合,用来把神经活动接到可重建的鸟歌声音上。
它的思路是把神经活动映射到鸟歌的音频嵌入,再用预训练音频编解码器的后半部分把嵌入还原成波形。这里用到的 EnCodec 是一种神经音频编解码器,会先把波形压成可重建的音频表示,再从这个表示还原声音。流程分成三步。
用 EnCodec 的编码器把鸟歌音频压成 128 维音频嵌入。 用前馈神经网络把 HVC 或 RA 的神经输入映射到这些音频嵌入。 再通过量化器和解码器,把预测出的嵌入合成为连续时间波形。
神经输入有两种版本,一种直接用 spike train,另一种用 GPFA 得到的神经潜在轨迹。每种输入又分别来自 HVC 或 RA。训练时使用每只鸟每次记录中 80% 的 motif,剩下 20% 测试,并用一部分训练数据做验证。网络本身较小,包含两个 64 单元隐藏层,输出 128 维音频嵌入;输入端包含大约 15-20 ms 的神经历史。
这个设计把声音重建拆成两个职能。
神经网络负责从神经状态预测鸟歌嵌入。 音频编解码器负责把嵌入还原成可播放波形。
真正被检验的是 HVC/RA 的神经状态里是否有足够连续声学信息。
结果给出了肯定答案。用 HVC 或 RA 的 spike train 和潜在轨迹,都能重建出高保真的连续鸟歌声谱图,而且明显好于时间打乱的控制条件。RA 解码表现通常优于 HVC,这再次说明 RA 更接近最终声学输出。
潜在轨迹形成稳定接口
脑机接口有一个实际问题。今天记录到的神经元,明天可能换成另一组。同一块脑区里,电极漂一点、组织反应变一点,单个神经元集合就会变。一个只记住具体神经元到声音对应关系的模型,很容易因为神经元更替而失效。
神经群体被限制在稳定流形上时,接口可以绑定到群体状态。记录到另一半神经元时,同一个群体网络理论上也能恢复相似的潜在轨迹。具体神经元换了,流形结构还在。
研究者用一个很直接的方式测试这点。他们把同一脑区记录到的神经元随机分成两半。模型先用其中一半训练,再用另一半测试。因为两半神经元对应的坐标系存在差异,他们用 Canonical Correlation Analysis 做对齐。Canonical Correlation Analysis 通常译作典型相关分析,用来把两组变量中最相互对应的变化方向找出来。
结果显示,在两只鸟、HVC 和 RA 的四组比较中,有三组里,基于神经潜在轨迹的解码器跨子群泛化显著好于基于 spike train 的解码器。直接用 spike train 时,模型更依赖具体神经元;用 GPFA latent 时,模型抓到的是更抽象、更稳定的群体状态。
低维流形在这里具有工程意义。未来发声神经假体可以尝试对齐到稳定的群体动力学坐标,减少电极状态变化、神经元采样变化带来的损伤。
论文关键词里写了 vocal neuroprostheses。斑胸草雀实验离人类语音假体还有物种、任务和临床场景上的距离。它已经给出一个明确原则,发声行为的控制接口可以从单个细胞上移到群体动力学。
HVC 的上游职能
RA 和 HVC 的差异常被误读成“RA 比 HVC 更好”。更准确的表述是,RA 对当前声音输出的映射更紧,HVC 对当前声音输出的映射更松。
这个差别来自职能边界。RA 作为下游运动核团,输出目标更集中,直接影响发声肌肉。它的神经状态越稳定,越容易保证同一音节在重复中保持相似声学结果。
HVC 处在更复杂的位置。它既向 RA 输出,又参与前脑学习通路,还接收听觉和感觉运动相关输入。它可能同时保存歌声序列推进、上下文、感觉反馈、未来分叉、误差调节和不同神经子群之间的协调。这样一个区域在低维投影里显得更分散,常常意味着当前分析方法只抓到了其中一部分结构。
论文也很谨慎地留下了这个边界。HVC 中可能存在更高维、更非线性的组织,当前 GPFA 这类线性方法很难完整揭示。尤其 HVC 不同神经子群可能承担不同过程,把它们压进同一个最大协方差流形时,有些行为相关结构可能被埋在较低方差维度里。
下游输出贴合度无法直接评判上游脑区。上游脑区承担多个未来路径的组织工作,因此会比输出端保留更多变化。
这项工作的入口
鸟歌研究常常被拿来类比人类语言,因为二者都是学习得到的发声行为,都需要在发育中通过听觉反馈塑形,也都依赖复杂的感觉-运动闭环。
这篇工作把自然学习得到的发声行为放进神经群体动力学框架里理解。
这件事有三个后果。
第一,发声控制需要看神经群体在低维空间里的连续演化。单神经元时间戳保留价值,稳定行为来自群体状态的组织。
第二,HVC 和 RA 属于不同职能节点。两者都能形成歌声相关轨迹,RA 更贴近声音输出,HVC 混合上游控制和序列信息。
第三,长期可用的神经假体可能需要把接口从具体神经元抬高到群体潜在状态。这里追求的是抗采样变化、抗记录漂移、抗单元更替。
一只鸟的歌声表面上是一串音节。
在 HVC 和 RA 里,它是一条被群体活动走出来的路径。RA 让这条路径靠近具体声音,HVC 让这条路径接上序列、输入和未来选择。声音在神经状态的连续移动中慢慢成形。
唱歌是一套会自己推进的动力学。
往期「音乐探索」-
伊安诺塔(Iannotta)《意在复活》中的技术与…亲密(下)
伊安诺塔(Iannotta)《意在复活》中的技术与…亲密(上)
一句话编辑音乐?深入了解 Instruct-MusicGen
音乐AI的“耳背”难题:为何让AI“听懂”并“回应”如此困难?
NotaGen:大型语言模型训练范式推动符号音乐生成的技术革新与应用
三问作曲家:弗里德里希·切尔哈FRIEDRICH CERHA
三问作曲家:赫尔穆特·拉亨曼(Helmut Lachenmann)
音色为核心的创作理念,多元视角及其在Rebecca Saunders音乐创作中的模糊性
寂静之声可有一观?探讨 Rebecca Saunders 的作品中的声音空间与声音剧情布局
美好艺术中心学员获得第26届Tribeca青年作曲比赛“新兴作曲家”荣誉称号
四名学员入选顶尖作曲夏令营2025 BUTI (Boston University Tanglewood Institute)
美好艺术中心三位学员Go Compose North America比赛获奖作品本周巴尔的摩上演
美好艺术中心学员Emily Chen荣获CMS作曲比赛第一名!
唯一亚裔获奖+顶级交响乐团演出!Fabian Leung获国家作曲挑战赛(NYCC)交响乐组冠军!
National YoungArts!美好艺术中心学员连续三年获作曲奖
35年来,首位高中生的交响乐入选顶级成人选拔Earshot Reading作曲项目
美好艺术中心学员Emily Bai获得LUNA COMPOSITION LAB作曲奖
第47届美国DownBeat学生音乐奖揭晓,附美国/国际获奖名单
见证|高中生作品由奥兰多爱乐乐团精彩呈现!记国家作曲挑战赛夺冠颁奖及演出!
喜报!2024年美本放榜!美好艺术中心学员拿到6个藤校offer+茱莉亚音乐学院作曲本科等offer!
茱莉亚音乐学院2024年作曲夏令营录取名单公布,美好艺术中心7名学员入选
2024年Tribeca青年作曲家比赛获奖名单公布!美好艺术中心学员获奖名次创历史最好成绩!
荣耀诞生!首位NYO-USA "Apprentice Composer"华裔女性获奖
MusicON-
2025 MusicON国际音乐节在纽约国家歌剧院圆满落幕,连续三晚的音乐会精彩纷呈!
第三届MusicON国际作曲比赛结果公布 (附决赛作品演出片段)
预告 I 2025 MusicON 音乐节(系列)音乐会第三场(节目单、作曲家、作品简介)
预告 I 2025 MusicON 音乐节(系列)音乐会第二场(节目单、作曲家、作品简介)
预告 I 2025 MusicON 音乐节(系列)音乐会第一场(节目单、作曲家、作品简介)
2025年MusicON国际作曲比赛决赛作曲家——Jingya Huang(黄靖雅)
2025年MusicON国际作曲比赛决赛作曲家——Ziyuan Wang(王子元)
2025年MusicON国际作曲比赛决赛作曲家——Xinyuan Deng(邓欣源)
2025年MusicON国际作曲比赛决赛作曲家——Asher Lurie
2025年MusicON国际作曲比赛决赛作曲家——Zihan Wu (吴子涵)
2025年MusicON国际作曲比赛决赛作曲家——Sami SEIF
公布 | 美好艺术中心第三届MusicON国际作曲比赛决赛名单
2025 MusicON 国际作曲比赛 ——距离截止日期仅剩 6 天!
预告 I 2024 musicON 音乐节(系列)音乐会第五场(节目单、作曲家、作品简介)
预告 I 2024 musicON 音乐节(系列)音乐会第四场(美好艺术中心学员室内乐专场)
预告 I 2024 musicON 音乐节(系列)音乐会第三场(节目单、作曲家、作品简介)
预告 I 2024 musicON 音乐节(系列)音乐会第一场(节目单、作曲家、作品简介)
第二届musicON国际作曲比赛决赛作曲家—Andrew Xu(美国)
第二届musicON国际作曲比赛决赛作曲家—Paul Novak(美国)
第二届musicON国际作曲比赛决赛作曲家—刘柳延 (中国)
第二届musicON国际作曲比赛决赛作曲家—Thomas Pennisi (意大利)
公布 | 美好艺术中心第二届musicON国际作曲比赛决赛入围名单
纽约 musicON 2024音乐节暨国际作曲比赛盛大启幕!
公布|美好艺术中心2023年" In Bloom" musiCON 委约名单
预告 I 2023 In Bloom MusiCON 系列音乐会第一场(节目单、作曲家、作品、演奏家简介)
预告 I 2023 In Bloom MusiCON 系列音乐会第二场(节目单、作曲家、作品、演奏家简介)
预告 I 2023 In Bloom MusiCON 系列音乐会第三场(节目单、作曲家、作品、演奏家简介)
架一座联结世界青年作曲家的桥—MusiCON 音乐会(series 1)精彩回顾
公布 | 美好艺术中心2022年" In Bloom" MusiCON 首期委约名单
公布 | 美好艺术中心2022年" In Bloom" MusiCON音乐会作品入选名单
公布 I 2022首届In Bloom MusiCON作品征集评审意见(comments of jury)
预告 I 2022 In Bloom musiCON 系列音乐会第一场(节目单和作曲家、作品简介)
预告 I 2022 In Bloom musiCON 系列音乐会第二场(节目单和作曲家、作品简介)
预告 I 2022 In Bloom musiCON 系列音乐会第三场(节目单和作曲家、作品简介)
—Sempre Musick—
美国Sempre Musick 第二届国际作曲比赛获奖作品音乐会圆满举行
美国Sempre Musick 2024年国际作曲比赛获奖名单公布
美国Sempre Musick 第一届国际作曲比赛获奖作品音乐会圆满举行
美国Sempre Musick 2023年国际作曲比赛获奖名单公布
往期「对话音乐家」-
作曲家吴子涵 | 从中国到美国,再到欧洲:在多元文化中塑造自己的音乐语言
美国作曲家Paul Novak | 作曲是一种合作与交流的艺术
无心插柳的成长之路却步步生花 —— 采访手记|专访施坦威青年艺术家、作曲家Taige Wang (王泰格)(下)
无心插柳的成长之路却步步生花 —— 采访手记|专访施坦威青年艺术家、作曲家Taige Wang (王泰格)(上)
对话|2024年ASCAP获奖者Fabian Leung:希望文化背景尽可能远离我的音乐
音potrait像 | 听觉跃迁:依克山·阿不都沙拉木三部器乐作品略谈
往期「讲座和课程」-
12月6日 美好艺术中心 × EDUBUS 音乐爬藤主题讲座 & 公开课(第二期)
十五位学生爬藤分享!美好艺术中心首次来尔湾讲座《如何培养音乐复合型人才——用少量时间取得成功》
美好艺术中心课程预告 | 音乐理论(新增:作曲技术理论相关内容)
美好艺术中心课程介绍 | 五种作曲方式的异同——从传统到前沿的音乐创作全景
美好艺术中心课程介绍 | 电影音乐作品分析—影视音乐中的张力、色彩与情感
《声学现象与错觉在当代作曲中的应用》——讲座精彩回顾(含讲座视频片段)
高科技文理复合人才/爬藤学生的福利来啦!美好艺术中心课程介绍 | 影视/游戏配乐/音乐制作
美好艺术中心讲座预告 | Finale 停售,作曲家们的新工具—聊聊Dorico





