
隆重推出Cloudflare Stream的最新功能-客户现在只需单击一下即可轻松生成视频字幕:AI生成的点播视频和直播录制字幕。作为Cloudflare帮助构建更好的互联网使命的一部分,此功能可供所有Stream客户免费使用。
此解决方案旨在简化流程,消除对第三方转录服务和复杂工作流程的需求。对于缺少字幕等辅助功能的视频,手动转录可能非常耗时且不切实际,对于大型视频库而言则尤为如此。传统上,它需要专业服务,有时甚至是专门的团队来转录音频并将文本与视频一起交付,以便在播放期间显示。由于各种原因(包括道德义务、法律合规性和不断变化的观众偏好),字幕变得越来越普遍,我们希望为大家减轻这种负担。
借助Cloudflare Stream的集成解决方案,字幕生成过程可以无缝集成到您现有的视频管理工作流程中,从而节省时间和资源。无论您何时上传视频,都可以轻松添加自动字幕以增强可访问性。现在可以在Cloudflare仪表板中或通过API请求生成字幕,所有这些都在熟悉且统一的Stream平台中完成。
此功能在设计时充分考虑了隐私和数据保护。与其他可能与外部实体共享内容的第三方转录服务不同,您的数据在整个字幕生成过程中都安全地保留在Cloudflare的生态系统中。Cloudflare不会将您的内容用于模型训练目的。有关数据保护的更多信息,请查看您的数据和Workers AI。
如何开始使用
自2024年6月20日起,测试版可供所有Stream客户以及Professional和Business计划的订阅用户使用,其中包括100分钟的视频存储。
要开始使用,请先将视频上传到Stream(从Cloudflare仪表板或通过API)。
接下来,导航到视频上的“字幕”选项卡,点击“添加字幕”,然后选择语言和“使用AI生成字幕”。最后,点击保存,几分钟后,新字幕就会显示在字幕管理器中,并自动在播放器中可用。当然,也可以通过API生成字幕。
字幕通常会在几分钟内生成。字幕准备好后,Stream播放器将自动更新以将其提供给用户。HLS和DASH清单也会更新,以便支持文本轨道的第三方播放器也可以显示它们。
支持点播视频和直播录制,无论它们是何时创建的。在测试版中,目前只能生成英文字幕,且视频时长不得超过2小时。语音清晰且背景噪音最小的视频转录质量最好。
我们对AI模型在测试中转录不同类型内容的效果感到满意。不过,有时结果并不完美,另一种方法可能更适合某些特定用例。请务必检查所生成字幕的准确性是否适合您的需求。
相关技术细节
使用Workers AI构建
Stream工程团队使用Workers AI构建了这项新功能,使我们能够通过单个API调用访问Whisper模型(一种开源自动语音识别模型)。使用Workers AI,通过开箱即用的解决方案从根本上简化了AI模型的部署、集成和扩展。我们的团队不再需要处理基础设施的复杂性,从而能够专注于构建自动字幕功能。
编写利用AI模型的软件可能涉及多个挑战。首先,难以配置适当的硬件基础设施。AI模型需要大量计算资源才能高效运行,并且需要GPU等专用硬件,而这些硬件可能成本高昂且难以管理。大规模部署AI模型也是一项艰巨的任务,涉及平衡工作负载分配、最小化延迟、优化吞吐量和保持高可用性等复杂性。Workers AI不仅解决了管理底层基础设施的难题,还可以根据需要自动扩展。
使用Workers AI将一项艰巨的任务转变为只需不到30行代码即可转录音频文件的Worker。

快速且大规模地为视频添加字幕
Stream团队希望确保此功能在大规模运行时足够快速且高性能-这需要工程工作来处理大量视频,无论时长如何。
首先,我们的团队需要在运行AI推理之前对音频进行预处理,以确保输入与Whisper的输入格式和要求兼容。
视频内容千差万别,从用手机拍摄的短小粗糙的视频,到长达数小时的高质量好莱坞电影,应有尽有。视频可能无声,也可能包含动作驱动的杂音。此外,Stream的点播视频包括直播录制,这些录制的打包方式与作为完整文件上传的视频不同。由于存在这种多样性,音频输入存储在一系列不同的容器格式中,具有不同的持续时间和不同的文件大小。我们确保我们的音频文件格式正确,符合Whisper的要求。
预处理的一个方面是确保文件具有合理的时长,以优化推理。Whisper的音频文件转录时长“最佳点”是30秒。正如他们在Github讨论中指出的那样:
“如果太短,会缺乏周围的背景。你会更频繁地删减句子。很多句子会变得毫无意义。如果太长,你需要越来越大的模型,来容纳你希望模型跟踪的含义的复杂性。”
幸运的是,Stream已经将视频分割成更小的片段,以确保在Web上播放时快速交付。我们编写了功能,在发送给Workers AI之前将这些小片段连接成30秒的批次。

为了优化处理速度,我们的团队尽可能多地并行化操作。通过同时创建30秒的音频批次并向Workers AI发送请求,我们充分利用了Workers AI平台的可扩展性。这样做大大减少了生成字幕所需的时间,但增加了一些额外的复杂性。由于我们并行向Workers AI发送请求,因此转录响应可能会无序到达。例如,如果视频时长为一分钟,则生成视频后30秒字幕的请求可能会在生成视频前30秒字幕的请求之前完成。字幕需要按顺序排列才能与视频对齐,因此我们的团队必须保持对音频批次顺序的理解,以确保我们最终组合的WebVTT字幕文件与视频正确同步。我们对传入的Workers AI响应进行排序,并重新排序时间戳以获得最终准确的转录。
最终结果是能够快速、高效且大规模地为较长视频生成字幕。
即刻开始试用
现在,我们已为所有订阅者以及Pro和Business计划用户提供此功能的公开测试版,我们对此感到非常兴奋!如要开始使用,请先将视频上传到Stream。查看我们的文档以了解教程和当前测试版的限制。接下来,我们将着重于添加更多语言并支持更长的视频。
Cloudflare