
就在今天,Meta Ai Fair团队发布了自动语音识别(ASR)领域的最新突破:全语言ASR。这是一个套件模型,可以提供 1600 多种语言的自动语音识别功能。规模和质量迈上新台阶。值得注意的是,该框架的设计是社区驱动的,世界各地的人们只需提供少量示例就可以将全语言 ASR 扩展到新语言。同时,还有一系列相关开源:全语言ASR语料库:代表语音的350种语言的转录语音大数据集wav2vec 2.0:语言探索的70亿个语言参数的多语言尺度的大规模语音模型:让人们探索模型所涵盖的语言的演示。目前,大多数ASR系统都专注于互联网资源丰富的少数语言,加剧了人们面临的数字鸿沟资源匮乏的语言用户。全语言 ASR 由 META Fair 团队推出,旨在通过通用转录系统使高质量的语音转文本技术惠及最不言而喻的语言社区。其最终目标是打破语言障碍,实现跨语言和文化的交流下载:https://huggingface.co/spaces/facebook/omniasr-transcriptionspaper:https://ai.meta.com/research/publication 多年来,扩展语言范围一直是一项资源密集型任务,而现有的 AI 架构对数据的需求过多,使得通用扩展难以实现。全语言 ASR 通过引入两种架构变体解决了这一研究瓶颈。首先,该团队首次将 WAV2VEC 2.0 语音编码器插入 70 亿个参数,从原始的非结构化语音数据生成丰富的大规模语义表示。接下来,该团队构建了两个解码器变体来映射这些 r字符序列的表示: 1. 一种依赖于传统的时间联结主义分类(CTC Target)。 2. 另一种使用LLM常见的传统变压器解码器。这种方法称为 LLM-ASR,实现了 ASR 性能的阶段性改进,尤其是在长语言中。 7B-LLM-ASRsystem 所取得的成果显示了 SOTA 在 1,600 多种语言中的表现,其中 78% 的语言错误率 (CER) 在 10 以下。除了扩展到 1,600 多种语言之外,全语言 ASR 还改变了引入新语言的范式。在大多数现有系统中,添加新语言需要专家驱动的专业知识。全语言 ASR 引入了第一个大型 ASR 框架,只需几个上下文示例即可扩展到全新的语言。这得益于LLM启发的系统,它带来了来自大规模语言模型领域的上下文学习能力。实际上,这意味着用户对于不受支持的语言,只需提供一些配对的音频文本样本即可获得可用的高质量转录,而不需要大规模训练数据、专业知识或高端计算资源。针对不同用例的一套模型 META 发布了一套完整的模型和数据集,为利益相关者提供了扩展和改进任何语言的语音技术所需的一切。系列型号:提供两种解码器变体,从专为低功耗设备设计的轻量级 300m 版本,到为不同用例提供级别精度的强大 7B 型号。基础模型:通用语音基础模型 WAV2VEC 2.0 还提供多种尺寸,可用于除 ASR 之外的其他语音相关任务。所有模型均在 Apache License 2.0 下发布,数据可在 aof CC-BY 许可下获取。这些资产建立在开源 FairseQ2 框架之上,并与全球合作伙伴共同构建。全语言 ASR 的训练语料库是规模最大的训练语料库之一我们从数量和语言多样性方面为 ASR 进行了整合,纳入了通过多个合作伙伴收集的公开数据集和社区语音录音。为了接触数字足迹较小的语言,该团队与当地组织合作,招募并支付母语人士的工资,这些地区通常是在偏远或记录不足的地区。这部分委托培训语料库作为全语言 ASR 语料库发布。迄今为止,这是有史以来最大的超低资源自然语音 ASR,涵盖了 ASR 系统以前从未见过的数百种语言。此外,通过语言技术合作伙伴计划,该团队与 Mozilla Foundation common voice 和 Lanfrica/Naija voice 等组织合作,直接与当地社区合作。这些合作伙伴关系为全语言 ASR 注入了深厚的语言知识和文化理解,确保该技术满足当地需求。参考:https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/?utm_source=twitter utm_medium = Organic_social utm_content = 视频 utm_campaign = 全语言
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。