-->
为五月的纽约流媒体保留座位吧. Register Now!

如何有效地为流媒体视频点播部署自动字幕解决方案

Article Featured Image

人工智能(AI)正在改变视频流媒体世界. 虽然人工智能作为一种技术已经存在了一段时间, 数据的数字化,加上对此类解决方案的需求,推动了该行业比预期更快地采用人工智能. 基于人工智能的系统现在用于语音识别、数据分析和其他深度学习平台. 它们提供了准确性和可扩展性,不仅补充了人类的输入,而且具有超越人类效率的能力.

人工智能提供多种好处的一个领域是自动语音识别(ASR)。. 语音识别是人工智能的一个领域,它可以识别口语并将其翻译成文本. ASR是多个系统的核心组件, 包括视频点播(VOD)流媒体环境中使用的自动字幕系统.

为什么自动字幕对流媒体很重要

字幕是视频点播流媒体服务的重要组成部分. Using captions, 提供视频点播服务的OTT提供商可以扩大其覆盖范围,让全球数百万观众轻松访问流媒体内容.

多年来,字幕都是手工制作的. However, OTT服务提供商正在为越来越多的全球观众处理大量的流媒体内容. 手动标注所有内容是不可能的,也不划算. 字幕是一项专业工作,需要了解语言复杂性的专家来完成. 降低成本,提高效率, 自动字幕已经成为一项非常重要的人工智能任务.   

自动字幕解决方案的关键组件

自动字幕解决方案有几个基本组成部分,可以确保VOD流媒体以高度的准确性和质量发生(Figure 1).

 Interra Closed Captions

Figure 1. 用于自动生成字幕的组件

ASR引擎是负责将语音转换为文本的核心组件. 如果OTT服务提供商想要确保内容的有效全球覆盖和准确性, 他们需要一个支持大多数语言和每种语言的重要方言的ASR引擎.

从技术的角度来看, 较新的ASR技术提供了更好的准确性——对于干净的语音内容,准确率超过95%.

选择一种能够识别说话人变化的ASR解决方案也很重要. 说话人识别可以帮助正确定位字幕,以确保每个字幕都接近说话人. 它还可以在有多个说话者的情况下提供清晰度.

In addition, ASR解决方案应该提供诸如“hmm”和“oh”等非语音的转录,以保持说话内容和转录内容之间的密切准确性. 

自然语言处理(NLP)是整个自动字幕解决方案的关键部分, ensuring accurate 标点和智能分句. 借助NLP, OTT服务提供商可以给句子加标点以提高可读性. NLP还可以帮助在标题的自然点处提供换行,以进一步优化可读性. 

此外,流媒体服务提供商必须遵守地区要求. 自动字幕系统可以帮助服务提供商管理字幕质量, such as words per minute, 用于显示标题的最大行数, 以及对脏话的敏感使用. 

使用自定义字典的解决方案将通过在调用ASR之前提供上下文来提高ASR系统的准确性. 假设服务提供商试图为其流媒体服务自动添加电视连续剧的标题. 所有人物的名字都是已知的,其中一些是困难的. ASR引擎可以在识别阶段对这些名称进行优先排序,以确保转录器保持良好的准确性. 

部署ASR系统的最佳实践

采用提供灵活部署策略的ASR引擎是VOD流媒体应用的理想选择. OTT服务提供商应该寻找一个既可以部署在本地,也可以部署在不同云服务(如AWS和Google cloud)上的ASR系统. 特别是基于云的解决方案,可以更快地部署到市场上. 

与20年前相比,自动字幕解决方案已经取得了进步. 它们现在广泛应用于现实世界的视频流应用中. 但准确性是有限制的. 因为口音和语言的数量, 要一直保持高精度是不可能的. 

克服自动标注解决方案的精度限制, 越来越多的服务提供商正在采用一种混合模式,在向全球观众播放视频之前,手动检查自动字幕结果. 只有在需要更高的遵从性,并且干净对话框的可用性不可行的情况下才需要人工检查(图2)。.

 

Figure 2. 自动字幕的混合模型

对生成的标题执行完整的手动检查可能是一项非常繁琐的任务. 创建审查工具是为了帮助服务提供商以最有效的方式审查和纠正生成的标题. 审查工具应该具有基于置信度评分对话语进行分类的能力,这样那些置信度评分低的话语就可以首先被审查,因为它们最有可能有错误. 审查工具需要能够在循环中播放所有话语和音频,以便快速检查. 一旦检测到错误,该工具必须能够提供纠正其属性的方法(例如.e.,文本,字体样式,时间代码,颜色等.) in an easy fashion. 这将确保更快地审查自动标注任务并加快交付时间.

Conclusion

ASR系统解决了当今VOD流媒体行业的关键问题, 使服务提供商能够提高利用语音到文本处理创建的字幕的准确性. 然而,ASR系统并非没有局限性.

通过采用混合方法,将自动标注与交付前的快速人工检查相结合, OTT服务提供商可以提高其VOD流媒体工作流程的准确性并显著提高效率.

[编者注:这是来自 Interra Systems. 流媒体接受供应商署名完全基于它们对我们读者的价值.]

Streaming Covers
Free
for qualified subscribers
Subscribe Now Current Issue Past Issues
Related Articles

视频字幕难题

StreamShark的James Broberg讨论了为什么视频字幕对于视频内容的可访问性和增加观众的理解是必不可少的.

基于机器学习的视频流字幕自动对齐方法

为了确保高质量的观看体验,同时遵守地区法规,音频和字幕必须保持一致. 这可以通过利用机器学习的自动校准系统高效且经济地实现. 其结果是一种满足当今全球观众高期望的观看体验,并推动了增长.

威瑞森发现,80%的视频字幕用户没有听力障碍

随着越来越多的观众在公共场所通过移动设备观看视频, 说明文字显得更为重要.

如何得分,增强,并说明视频与YouTube创作者工作室

YouTube后台的编辑功能无法与Adobe Premiere Pro等非线性编辑器竞争, 但是有一些强大而独特的工具可以使简单的编辑项目变得更加简单.

新的FCC标题要求:你需要知道的

新的字幕要求于7月1日生效, near-live, 预先录制好的广播视频放到网上.

如何为在线视频添加字幕

我们距离实时视频字幕标准还有几年的距离, 可用的解决方案绝不是即插即用. 但这并不意味着它无法实现. 只需要一点点努力.

提及的公司及供应商