这是一个或许令人费解,但感官上却印象深刻的故事。
突然有一天,我想记录下那些在脑海中闪过的声音片段。为了将它们收集整理,便有了这篇类似「赛博洛阳铲」的文章。
本文旨在回顾虚拟音声发展历程中的重要节点和事件,追忆相关技术、文化、社区及参与者在各个阶段的选择和演变。文章主要包括两个章节:其一为简要历史事件回顾1,旨在简要回顾过往的关键事件;其二为个人作为听众的观察和思考。
历史回顾大致可概括为如下几个阶段:
- 以 V 家为代表的早期开局(2004-2009);
- 动荡下的裂变反应(2010-2016);
- 虚拟主播与中之人(2017-2019);
- 完全虚拟的主播与自定义音源崛起(2020-2023);
- 「国际靶场」与 AI 加持下的超现实创作(2023-至今);
个人视角部分包括:
- 虚拟音声成为第三者;
- Vocaloid 的风格化壁垒;
- 新时代歌曲的再解构;
个人视角部分将主要围绕最后两个历史时期展开讨论。
这些话题多源于我个人的所见所闻所感。其中牵扯的人物、概念、技术和作品繁多而复杂,在梳理过程中,如同「洛阳铲」碰到了铁板,我发现许多事件相互交织重叠、彼此融合。对于最后一个阶段的讨论也将不止于单纯的历史线索梳理,而是会扩展到更为切近的「现在」。
虚拟音声:本文中,「虚拟音声」泛指虚拟歌手(及其形象)与相关多媒体制作工具,如合成声库、宿主软件、AI 生成引擎和编辑器等服务于歌声及泛音乐创作的虚拟音声技术与产物。此概念主要为本文讨论方便而设,旨在进行笼统说明。本文覆盖的范围将尽量集中于此,文中的备注和链接将尽可能补充说明相关的周边信息。
虚拟音声回顾:从 Miku 到富士山下
作为虚拟乐器的 Miku:Vocaloid 早期
2004 年,由 Crypton Future Media 基于雅马哈(Yamaha)的 Vocaloid 系列语音合成软件开发的声库正式发布——虚拟音声与音乐编辑软件的结合,这可以视为虚拟音声发展的开端之一。该声库的原始声音资料由声优藤田咲录制,其编辑方式与其他音乐宿主软件(DAW)类似。
如果你完全不了解电脑编曲,或是如何使用「非自然存在的声音」作为乐器,那么上手 Vocaloid(又称「术力口」,下文简称 V 家)仍然需要一些基础知识。但这种内置预设声库的模式,很大程度上降低了使用门槛,能够吸引更多人加入其中,享受创作的乐趣。
V 家在初期就选择了一条相对专业且商业化的路径,这使得软件的销售颇为成功。在这个时期,虚拟音声的发展实际上存在多条路线2,只不过 V 家选择了一种更侧重于专业音乐演唱的模式。
而声音合成本身的历史,则更为悠久。

2007 年,随着 Vocaloid 2 引擎更新,「初音未来」(Hatsune Miku)诞生,完整的虚拟歌手 IP 概念也随之出现。初音未来又被称作 Miku 或 39:日语中 39 的一种读音与 Miku 相似;另一种读音可作 sankyuu,谐音 Thank you (感谢)。
正如其名字中的「初」所寓意的,Miku 如同具有偶像气质的、透明而高科技的乐器,打破了许多人的固有印象。这一年可以被视为 V 家真正的「元年」,更多深刻的变革在此后发生。
同期也诞生了许多有助于其发展的周边事物,仿佛是约定好一般,共同构成了一手「天胡」开局:
- Vocaloid + Hatsune Miku:催生了以虚拟歌手为核心的同人衍生,主要是歌曲创作;
- Vocaloid + MikuMikuDance3:实现了声音与舞蹈结合的 3D 作品创作(或其他类型的 3D 作品);
- Vocaloid + Niconico 弹幕互动社区:提供了互动视频特性和资源共享平台,形成了适合用户成长交流的小范围社区和开放共享的环境;
- Vocaloid / UTAU:互补但又不完全相同的两种虚拟声库发展路径;
Vocaloid 早期版本尽管入门门槛相对较低,但实际操作并不算十分简便。若想获得更逼真的发声效果,则需要在参数编辑器中精细调整演唱参数。这种要求精度且参数繁多的工作,也催生出新的分工角色:调教师。调教师的主要职责,便是处理音频之上的各种细节参数,赋予歌声更多的细节和深度(或呈现特定的音色),乃至唱出异于常人4的歌声。
这段时间,出现了许多创作不同寻常作品的尝试。《甩葱歌》5就是这样一个例子。凭借简洁的二次元画风、魔性洗脑的旋律和搞笑风格,仅通过简单的音源叠加和编辑便足以引人瞩目。这首歌初次投稿于 2007 年 9 月 4 日,由 Otomania 改编,调整了日式发音,选取原曲中间一段意义不明的唱词,并配上甩葱的动画。
Niconico(下文简称:N 站)作为亚文化聚集地,见证了《甩葱歌》的火爆;之后 V 家与《东方Project》6的联动作品《Bad Apple!!》及其衍生创作,更是开启了音乐类二次创作的热潮。许多人初次接触此类作品,很可能就与这两首歌有关。
在当时相对简单的传播环境下,这些作品带来了开放而包容的创作氛围。

也许有些人沉醉于画面与声音的结合,有些人痴迷于欣赏音乐和歌唱的奇观,更或者只是单纯地发个弹幕参与娱乐——围绕 V 家形成的「你中有我,我中有你」7的生态,证明了当时运营方式的正确和有效,也让创作得以收获成果。
2007 年 12 月 7 日,这种当时尚具机械感的歌声迎来了其真正意义上的里程碑——由 ryo 上传的歌曲《Melt》,为 V 家拿下了第一个百万播放量。至此,N 站的排行榜机制也开始发挥重要作用——殿堂曲、传说曲、神话曲等称号也由此诞生并流传至今。

随着 Vocaloid 引擎更新,V 家的虚拟形象阵容再次扩展,加入了镜音铃、镜音连、巡音流歌等成员,形成了由六位成员组成、并逐渐为大众熟知的「虚拟歌手」组合(常被称为 C 社六子)。自此,「虚拟歌手」不再仅仅是初音未来的代名词。2009 年,初音未来首次以全息投影形式在 Animelo Summer Live8 上表演——这样的表演形式吸引了更多人关注并参与到这场「造梦运动」中。
这足以令人惊叹。
如今,Vocaloid 一词既可指代其合成软件本身,也可泛指 V 家的虚拟歌手们及其相关文化。通过口口相传和社区循环,无数制作人借助 V 家平台,在社区中凝聚成不同的创作团体;而具备制作 V 家歌曲能力的个体创作者,后来也被赋予「P 主」(Producer,即制作人)的称号。wowaka、deco*27 和米津玄师(ハチ)等日后享有盛誉的 P 主也在此时崭露头角。
V 家基本在 2009 年前后通过大量的作品奠定了初期地位。那时的作品形式大多为简单的 PV(音乐视频)、手书(静态图片构成的视频)等,音乐风格多集中于电子舞曲和流行歌曲。除 P 主外,这个创作生态也吸引了不具备专业绘画或音乐技能的爱好者参与。普通人也借助 V 家和 N 站共生的文化环境,体验到了许多不同于传统商业模式的创作内容和社区氛围。
文化符号的可视化:动荡时代的裂变反应
V 家这种结合虚拟形象的推广方式,从一开始就为后续的偶像化运作提供了便利。起初,虚拟形象代替 P 主登台,承载了一部分创作人的期望。随着内容类型的多样化,虚拟形象的功能被赋予了更广泛的含义,其在社交传播中的影响力也日益增强。
对 V 家相关内容的讨论,很大程度上也围绕着这些「虚拟形象」展开。从发展角度看,这在当时主要起到了积极作用。然而,创作者将过多期望投射于虚拟形象,也为日后埋下了隐患。
2007 年伴随 Vocaloid 2 诞生的 MMD,革新了 3D 动画的制作方式,让更多人得以使用这款简便的动作编辑与渲染工具。MMD 杯(MMD Cup)竞赛也在 MMD 下载量飙升之时迅速举办,虽然第一届 MMD 杯预选赛参赛作品仅 58 个,但已初具规模。

由 googoo888 制作的《罗密欧与灰姑娘(ロミオとシンデレラ)》是使用 MMD 制作的早期 UGC(用户生成内容)代表作之一。其「一键换装」等演出效果充分展现了虚拟形象的魅力,被社区视为 MMD 视频创作的模板之一。尽管早期作品的运镜尚不流畅,但其完整的表现形式和视觉效果已让人们看到了巨大的潜力。

社区中大量的动作配布9(数据分享)模板,方便新人获取创作资源10。模型和动作数据的开源共享,极大地推动了 MMD 的普及。高完成度的 MMD 作品与许多已发布的歌曲相结合,持续的再创作使得相关内容历久弥新。2010 年 MikuMikuEffect(MME)特效插件的发布更是对 MMD 作品的视觉效果产生了巨大影响。不过,MMD 的官方更新最终停留在了 2013 年的 Ver.9.10 版本左右(注:原文 2011 年 Ver7.0 信息可能不准确,根据网络资料修正)。
关于 MMD 的相关教程和讨论至今仍在流传,旧貌换新颜的 MMD 作品如今也还在延续。
随着 MMD 的普及和线下演唱会的成功举办,积极的信号传遍了创作社区。低门槛的 MMD 工具吸引了大量 3D 动画创作者。在社区的推波助澜下,内容制作开始利用「合成声音 + 角色形象 = 可传播的虚拟人格」这一集体共识,去尝试更多玩法。MMD 视频也逐渐为这些虚拟形象赋予了更多「设定」。这些内容共同塑造并固化了 V 家的文化符号。
加上 V 家创作者和社区的协力,更多的题材和创作方向涌现:
- 内容创作:由 UGC 内容和制作工具共同驱动,结合 MMD 或其他形式,实现多元化内容创作;
- 风格拓展:跨领域融合电子音乐、摇滚等风格,结合动画、游戏视觉元素,从纯音乐内容扩展到包含角色叙事的作品;
- 国际化传播:虚拟音声开始向多语种、国际化方向发展,出现了不同语言的演绎和改编作品。
活跃于「前线」的虚拟形象,也让其背后的创作者获得了更多关注。多元的内容形式也开始利用手头的工具展现出奇妙的创意。围绕 MMD、调音等核心创作形式,各社区也产生了相应的比赛和活动。
2010 年前后,Bilibili(B站)在中国互联网上逐渐崛起。其在 2017 年上市前的诸多运营策略,显示出从早期用户自发推动到平台主动寻求「破圈」的转变。谁能想到前身为 Mikufans 的 B 站,日后会发展成为 V 家文化在中国的重要阵地之一。AcFun(A站)和 B 站早期吸纳了 N 站的大部分创作类型,也为后来中文 V 家的诞生奠定了社区基础。
实际上,中文虚拟歌手正是在这样的环境中起步,但由于缺乏成熟的运营条件,其后续发展并非一帆风顺,留下不少遗憾。

2012 年,中文虚拟歌手洛天依正式亮相,一同出现的还有 Vsinger™11 这一相对「新颖」的概念。此外,Vocaloid 引擎的更新不仅增加了多语言支持(包括中文)和实时渲染功能,其合成音色也逐渐褪去机械感,更显细腻和接近人声,能够适应更多变的音乐风格。后来,在 B 站的 Vocaloid 分区,《普通DISCO》12《千年食谱颂》等歌曲爆红。中文 V 家作为一个相对独立的13体系,为虚拟歌手文化融入中国本土主流视野做出了贡献。

《达拉崩吧》则是中文 V 家歌曲中较早运用多声部和复杂编曲的作品之一。歌曲融合了交错的电子音色、密集的叙事歌词以及多角色声线的切换,其复杂程度足以让许多翻唱者望而却步。
许多用户通过弹幕网站接触到这些形式多样的综合性创作社群。各种跨越作品、次元、时空限制的创作,为整个 V 家生态注入了强大的生命力。这些作品成功地让 V 家的音乐更具辨识度和记忆点。随着 V 家合成声音逐渐变得圆润自然,其虚拟形象也开始承载乐器属性之外的新功能。二次创作的再创作,以及由此衍生的层层「套娃」式创作,伴随着排行榜竞争、商业运作的介入,「主动寻求」式的探索有时也给社区带来了动荡与不安。
2013-2017 这几年,虚拟音声领域的探索开始从工具本身转向应用场景。一些探索者开始尝试将虚拟声库与算法生成的旋律结合,探索 AI 辅助作曲的可能性。圈内生态在经历裂变后也出现震荡,资本的关注加速了圈层壁垒的消融(更多这个时期的作品或许可以在 A 站找到)。
2014 年,V 家似乎正值「七年之痒」,年度传说曲数量大幅下滑,听众增长放缓。其原因复杂多样。无论是 N 站自身的运营策略和社区环境变化,还是早期已取得成功的创作者寻求转型,都对当时的 V 家生态产生了影响。
还记得一开始提到的「能人所不能」吗?
3D 技术和渲染引擎的发展,可以说是这一时期明面上的主线。「能人所不能」的探索扩展到了动作捕捉、精细化面部识别等领域,并利用虚拟形象拓展海外市场。而相对的「暗线」,则是许多伴随 V 家成长的音乐人和制作人开始走向主流音乐界(或继续个人创作道路)。「Vocaloid 音乐创作—3D 动画/多媒体创作—二次传播」这一成熟路径也开始被更广泛地复制和应用。

各种技术和应用层出不穷,目不暇接的作品涌现,如同 2017 年 V 家传说曲《猛独侵袭》14所描绘的氛围。在这样的背景下,许多人开始以歌手、编剧、画师、出品人等不同身份加入创作行列,或发展成为能够胜任多个环节的「一体机」式创作者。GARNiDELiA15、米津玄师16等 V 家出身的音乐人(或团体)在这一时期成为了其中的代表。创作者不同的发展选择,进一步推动了生态的多元化裂变。
形象的继承与扩张:虚拟主播大逆袭
这是一个商业模式探索日益复杂多元的时期,虚拟形象的应用在音乐之外的领域逐渐兴起。利用形象结合声音来拓展影响力,成为了一种更直接的手段。
2016 年后,一种与 MMD 展示形式有相似之处,但内容取向更大众化,且更能利用虚拟形象进行商业拓展的形式——直播,开始兴起。
虚拟主播(Vtuber)继承了部分同人创作的经验和社区用户基础,借助更成熟的技术整合和资本运作模式,让屏幕上的「小人儿」用上了更加流畅的语音识别与面部/动作捕捉技术成果。一场革新也在此领域发生。
其中最具代表性的 Kizuna AI(绊爱),以及后来出现的 Hololive、A-Soul 等企划,共同见证了这一时期的盛况。
Kizuna AI(绊爱)的出现,打响了虚拟形象进行线上实时互动的第一枪。作为「虚拟主播始皇帝」(粉丝常用爱称)的绊爱,在其活跃的几年间,验证了「预录内容 + 中之人17实时驱动」商业模式的可行性,也让实时声音处理/变声等技术成果获得了广泛关注。