Loom 语音编辑黑科技揭秘：AI 如何让你的视频秒改不重录？

Atlassian
7月31日
讀畢需時 11 分鐘

想让视频内容实时更新，却又不想一遍遍重录？Loom 的语音编辑功能帮你实现！这项由先进 AI 驱动的技术，让你能瞬间调整视频中的特定部分，比如替换姓名或公司名称，而且声音依然是你的原声。这不仅让视频创作更高效、灵活，还能高度个性化定制内容！🚀

告别繁琐重录：Loom 语音编辑的核心魔力 💡

Loom 的语音克隆编辑功能，让用户无需重新录制就能即时更新视频内容，大大提升了视频创作与编辑的流畅性和效率。这项技术对于大规模创建高保真、常青的视频内容（如培训和赋能视频）至关重要，显著减少了昂贵且耗时的重录需求。

例如，「音频变量」功能，正是基于这种底层语音编辑能力实现的。用户只需录制一次，就能用自己的声音替换视频中的姓名或公司细节，实现个性化定制。接下来，我们将通过具体案例，展示这项技术如何修改语音，比如替换人名或公司名，同时保持自然流畅的音频输出。

语音编辑：比文本转语音更复杂的“外科手术” 🤯

尽管文本转语音（TTS）技术已经相当成熟，但语音编辑却带来了独特且更复杂的挑战。传统的 TTS 通常是从零开始生成完整的语音片段，且往往是自由形式，没有与现有音频紧密整合的约束。

相比之下，语音编辑需要修改现有音频的特定部分。我们希望将“改动面”限制在绝对必要的最小范围。这种“外科手术”般的方法有助于确保生成音频中可能出现的任何瑕疵或不自然感不那么明显，因为周围的原始音频保持不变，提供了强大而连贯的基准。

语音编辑过程需要三个关键输入：

原始音频波形： 需要编辑的原始录音。
原始文本： 原始音频的文本表示。
修改后的文本： 期望的新版本文本，反映要对音频进行的更改。

因此，核心挑战在于实现这些精确的编辑，同时保持编辑片段边界的连贯性，并保留原始说话者的语速、音调和整体发音风格。目标是让修改后的语音听起来就像是说话者在原始录音中自然说出来的一样。

简单地使用传统 TTS 方法生成新语音的音频片段并插入，很可能因为与周围声学和韵律语境缺乏连贯性而显得格格不入。

零样本学习：打造通用的“声音魔法师” 🧙‍♀️

我们的首要目标是创建一个通用模型，能够泛化到训练阶段未曾见过的新输入数据（包括新颖的声音和声学环境）——这便是所谓的“零样本学习”。

许多商业语音克隆解决方案采用过拟合或微调方法，即使用用户的一段语音样本（从几十秒到几分钟不等）为每个用户训练或显式微调模型。虽然这可以提供高质量的语音克隆，但存在几个缺点：

用户体验： 新用户无法立即使用该功能；他们必须提供语音样本并等待自定义模型训练，这个过程可能需要几分钟到几小时。
数据安全与信任： 这需要额外的流程和系统来保护用户语音样本和/或说话人嵌入，增加了操作复杂性，并可能引发用户信任问题。
工程复杂性： 涉及协调个人用户的数据收集、模型训练、数据溯源和数据保留。
推理延迟： 需要为每个用户从存储中检索不同的预训练模型检查点，因为预训练检查点无法在用户之间共享。
成本： 训练和存储单个模型会产生大量费用。这导致该功能需要收取高昂费用，使其对大众用户而言可及性较低。

相比之下，零样本学习虽然具有挑战性，需要用海量数据集训练强大的模型，但它却能规避这些问题。一个单一、强大的模型可以服务所有用户，无需他们的特定训练数据。这简化了模型训练和管理，减少了推理延迟（因为同一个模型可以一直加载在内存中），并显著降低了每个用户的成本，从而使高级功能更易于获取。✅

核心技术揭秘：蒙版声学建模（MAM）🎭

我们语音编辑系统的核心是声学模型，它基于与 Meta AI Research 的 Voicebox 相似的架构。该模型采用了蒙版声学建模（MAM）训练技术。这种方法类似于 BERT 等模型中使用的蒙版语言建模（MLM），特别适合语音编辑的需求。

MAM 将问题定义为一种“填充”任务。在训练期间，输入音频的某些部分会被故意移除（蒙版），模型的任务是根据周围未被蒙版的音频预测或重建这些缺失的音频内容。这直接反映了语音编辑的核心要求：为特定片段生成新的音频，使其与原始录音中现有未更改的部分高度连贯。

通过以这种方式对大量数据进行训练，模型不仅学会了生成语音，还学会了生成与所提供上下文的声学特性（如音色、音高和背景噪音）和韵律特征（如语速和语调）无缝融合的语音。这使得 MAM 成为一种有效的问题定义，因为它本质上教会了模型在仅修改音频轨道部分内容而非完全孤立生成时，保持所需的关键连贯性和自然性。

语音编辑：端到端工作流程全解析 ⚙️

语音编辑工作流旨在支持声学模型，涉及多个相互关联的阶段和辅助组件，以确保在生产环境中的无缝应用：

语音编辑工作流包含几个相互连接的阶段：

1. 波形到 Mel 频谱图转换 🎶

工作流始于处理原始音频波形。声码器的编码器组件将原始的一维音频波形数据转换为中间的、更紧凑的表示形式——Mel 频谱图。这个信号处理步骤将语音从时域转换到频域，将其表示为二维“图像”，其中一个轴表示时间，另一个轴表示频率，强度对应于振幅。这种转换将音频编辑任务重新定义为图像编辑问题，特别是“图像填充”，类似于 Image Stable Diffusion 等模型中使用的技术。

2. 文本处理 📝

原始文本和修改后的文本都必须为语音模型做好准备。这包括两个子步骤：

a. 文本规范化： 文本通常是书面形式而非口语形式，这会使下游任务（如音素化和 TTS）变得复杂。我们对输入文本进行规范化，以提高 TTS 准确性。例如：

数字：“12, 13, 43” → “twelve, thirteen, forty-three” (十二, 十三, 四十三)
货币：“It costs $34.98” → “It costs thirty-four dollars and ninety-eight cents.” (花费三十四美元九十八美分)
缩写：“St. Patrick’s Day” → “Saint Patrick’s Day” (圣帕特里克节)
日期：“Today is Jan. 01, 2022.” → “Today is January first, twenty twenty-two.” (今天是二零二二年一月一日)

书面形式可能存在歧义（例如，“St.”可能是“Street”或“Saint”；“2022”可能是“two thousand and twenty-two”或“twenty twenty-two”）。我们利用 NeMo-text-processing 库，它支持上下文感知处理，以最大限度地减少此类歧义。虽然无法做到完美，但歧义程度通常是可控的。

b. 音素化： 文本规范化后，口语形式的英文句子被转换为国际音标（IPA）。这有助于 TTS 系统推断单词的发音（例如，“Atlassian”→ ætlˈæsiən，“Confluence”→ kˈɑːnfluːəns）。

我们使用以 Espeak 为后端的音素化器。Espeak 拥有强大的基于规则的音素化器，据经验表明，它超越了许多基于表格和基于机器学习的音素化器。

然而，这种方法仍然存在一些挑战：

口音： 由于不同的口音可能出现歧义（例如，“Dance”：美式英语中的 dˈæns 与英式英语中的 dˈans；“Can’t”：美式英语中的 kˈænt 与英式英语中的 kˈɑːnt）。来自南非、印度和新加坡等地区的口音增加了进一步的复杂性。在不预先了解用户口音的情况下，我们只能依靠声学模型来预测口音并生成正确的发音。
姓名： 基于规则的模型可能难以处理姓名，尤其是非西方来源的姓名。为了缓解这个问题，我们维护了一个自定义的音素拼写查找表，为特定姓名创建了专门的规则。

完成这些子步骤后，我们就有了两个音素序列：一个用于原始音频，一个用于所需修改音频。

3. 强制对齐 🎯

此阶段将原始音频的声学特征（由步骤 1 中的 Mel 频谱图表示）与其文本表示（步骤 2b 中的音素序列）进行对齐。强制对齐器确定原始文本中每个音素在音频中出现的时间。如果没有准确的对齐，后续的编辑和蒙版处理将无法针对正确的音频片段，因此无法有效工作。

强制对齐器是一个机器学习模型，它将每个音素映射到 Mel 频谱图中对应的片段（时间帧或“列”），建立精确的开始和结束时间。主要输出是每个音素的一组持续时间。

例如，它可能会确定单词“thirteen”（十三）中的音素 /iː/ 对应于频谱图中的 26 列（时间帧），其中每列通常代表一个小的时序单位（例如，大约 10 毫秒）。这种音素级别的时间信息对于了解要编辑哪些音频片段至关重要。

关于强制对齐器：

传统的强制对齐器（例如 HTK、Montreal Forced Aligner）通常基于 HMM，适用于离线批处理。虽然这些对齐器表现令人满意并已被研究人员广泛采用，但它们不适用于实时生产使用。

我们最初尝试使用 Wav2Vec 预训练模型构建强制对齐器也未能获得令人满意的性能和准确性。

最终，我们根据 NVIDIA 的“One TTS Alignment to Rule Them All”论文开发并训练了自己的强制对齐器。我们还对原始模型架构进行了一些关键修改：

原始论文的静态“先验”项，旨在有利于对角对齐并加快收敛。在实践中，它被证明存在问题。对于长时间沉默的语音，它实际上可能会减慢收敛速度。因此，我们删除了此项。
我们用 Transformer 架构取代了对齐器的卷积网络组件，灵感来自 Vision Transformer (ViT)，从而实现了更快的收敛和更高的准确性。

此对齐信息将留待在步骤 6 中构建“蒙版频谱图条件”。

4. 序列匹配 🔄

为了精确识别所需的编辑，使用序列匹配器将原始文本的音素序列与修改后文本的序列（均在步骤 2 中处理）进行比较。

这个过程类似于代码版本控制中的“diff”操作。它识别两个音素序列之间的差异，将每个更改分类为：

未更改： 两个文本中相同的片段。
插入： 修改后文本中存在但原始文本中不存在的新词/短语。
删除： 原始文本中存在但修改后文本中已删除的词/短语。
替换： 原始词/短语被删除并插入新词/短语。

输出（详细说明每种编辑的类型和位置）作为后续构建蒙版 Mel 频谱图的蓝图。然而，在继续之前，还需要更多信息。

5. 持续时间预测 ⏱️

当插入或替换词语或短语时，新音素的语音持续时间是未知的。持续时间预测器模型会估算这些持续时间。例如，“fourteen”（十四）和“fifteen”（十五）具有不同的音素持续时间。该模型接收音素序列（其中未更改部分的持续时间已知，如步骤 3 中的强制对齐所确定；新增或更改部分的持续时间被蒙版或未知），并预测缺失的持续时间，同时考虑周围音素的上下文。

Voicebox 论文提出了两种实现：一种使用连续归一化流（CNF），另一种是类似于 FastSpeech2 的简单回归模型。我们选择了 FastSpeech2 风格的基于回归的持续时间预测器模型，因为它简单且推理速度快。

6. 构建蒙版 Mel 频谱图 🖼️

完成对齐、序列匹配和持续时间预测后，所有必要信息都已收集完毕，用于构建将作为声学模型输入的“蒙版 Mel 频谱图”。

未更改片段： 原始 Mel 频谱图中的相应片段直接复制（或“嫁接”）到新的 Mel 频谱图中。
已删除片段： 原始 Mel 频谱图中的相应片段从新的 Mel 频谱图中省略。这会导致 Mel 频谱图变短。
插入片段： 添加一个新的“蒙版”（最初填充零）片段。其长度由新音素的预测持续时间（来自步骤 5）确定，确保有足够的生成空间。
替换片段： 这结合了删除和插入。Mel 频谱图中的原始片段被省略，并插入一个新的蒙版片段。预测持续时间决定了此新片段的长度。

生成的蒙版 Mel 频谱图是保留的原始音频的复合体，根据删除进行了调整，并为新内容或替换内容设置了蒙版区域。然后，这连同蒙版区域的目标语音信息一起传递给声学模型。

7. 填充蒙版频谱图 🎨

此阶段是生成新音频内容的地方。蒙版频谱图和音素信息被输入到声学模型中。

声学模型使用连续归一化流（CNF）模型，并使用流匹配进行训练。流匹配是一种无模拟方法，它回归条件概率路径的向量场，通过学习将简单的噪声分布转换为复杂的语音数据分布，从而实现高效的 CNF 训练。

该过程从蒙版部分的随机噪声开始。流匹配训练模型在每个时间步预测向量场，并以对齐的音素（目标声音）和周围语音上下文为条件。然后，普通微分方程（ODE）求解器对这些向量场进行积分以生成最终音频。这种方法通常比传统的扩散模型需要更少的推理步骤。

声学模型“填充”这些蒙版部分，生成与目标音素匹配的新音频，同时在发音风格、语速和说话人特征方面与周围的原始音频保持一致。输出是一个完整的、新的 Mel 频谱图，其中无缝地包含了编辑内容。下表展示了 Mel 频谱图在八个时间步长中的演变，从随机噪声到语音。

8. 波形重建（声码器解码）🔊

最后一步是使用声码器解码器将生成的 Mel 频谱图转换回一维音频波形。这逆转了初始编码过程（步骤 1），通常采用神经网络来预测和填充任何缺失的信息，从而准确重建波形。

我们已经尝试了不同的声码器。最初使用了 ParallelWaveGAN，后来我们过渡到 Vocos 和 BigVGAN 以提高性能。实际上，我们发现声码器的选择对最终输出质量影响很小。

隐私与安全：Loom 的 AI 守护者 🔒

语音编辑系统如果被滥用，可能会带来重大的道德风险。核心风险在于有人可能会在未经他人知情或同意的情况下，冒充他人的声音。为了降低部分风险，我们实施了各种产品级和数据级保障措施。

产品级限制：

语音编辑功能仅限于 Loom 视频的创建者使用，即使其他人拥有编辑权限。这可以防止其他人使用该功能编辑他人的语音。
上传的视频或会议录音不支持语音编辑，以避免编辑不属于创建者的语音内容。
明确的用户确认： 使用语音编辑时，用户必须确认正在更改的声音是他们自己的。

数据使用与保留：

不使用用户数据进行训练： 任何用户数据或用户生成内容（UGC）都不会用于训练这些语音编辑 AI 模型。当前的模型仅在公开可用的开放数据集上进行训练。
不存储个人语音数据： 系统不保存或保留任何可以识别特定用户的语音数据。在没有参考语音样本的情况下，模型无法重现用户的声音。
使用情况跟踪： 会保留文本转语音的编辑日志，以备将来审计。
我们还会进行负责任的技术审查和用户研究，以识别和解决随着技术发展而出现的新兴风险。

AI 赋能更流畅的视频沟通 🎬

Loom 语音编辑技术的开发反映了我们致力于突破视频通信界限的承诺，使其更加流畅，不再受限于一次录制会话的终局性。通过构建一个能够智能且连贯地修改口语音频的系统，我们旨在赋能用户，让他们在初始录制之后对内容拥有更大的灵活性和控制权。

随着 AI 的不断发展，指导这项工作的原则——优先考虑用户体验、确保可扩展性和实现无缝集成——将始终是其发展的核心。完善和扩展这些能力的旅程仍在继续，最终目标是让视频成为一个更强大、更具适应性的连接和表达媒介。