Meta 新推出的实时语音翻译模型 Seamless

news/2024/7/10 22:05:10 标签: 人工智能, 音视频, 开源

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 文本到语音翻译 (T2ST)

  • 文本到文本翻译 (T2TT)

  • 自动语音识别 (ASR)

我们正在发布 SemalessM4T v2,这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比,该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息,请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型,可捕捉韵律中某些未充分探索的方面,例如语速和停顿,同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息,请访问 SeamlessExpressive 自述文件或🤗 模型卡

SeamlessStreaming 

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 自动语音识别 (ASR)

要了解有关 SeamlessStreaming 模型的更多信息,请访问 SeamlessStreaming 自述文件或模型卡

安装

先决条件之一是 fairseq2,它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外,它还依赖于 libsndfile,而您的计算机上可能没有安装该文件。如果您遇到任何安装问题,请参阅其自述文件以获取进一步说明。

pip install .

转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ,大多数包管理器都可以提供该工具。

项目链接

https://github.com/facebookresearch/seamless_communication

网站/论文: https://ai.meta.com/research/seamless-communication/

HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724


http://www.niftyadmin.cn/n/5262710.html

相关文章

鸿蒙篇——初次使用鸿蒙原生编译器DevEcoStudio创建一个鸿蒙原生应用遇到的坑--汇总(持续更新)

前言:欢迎各位鸿蒙初学者、开发者来本帖交流讨论,包含各位遇到的问题、鸿蒙的bug、解决方法等等,我会收集有效的内容更新到本文章中。 背景:2023年12月13日,使用DevEcoStudio 4.0.0.600版本,项目的compileS…

【经验分享】gemini-pro和gemini-pro-vision使用体验

Gemini Gemini已经对开发者开放了Gemini Pro的使用权限,目前对大家都是免费的,每分钟限制60条,至少这比起CloseAI的每个账户5刀限速1min3条要香的多,目前已于第一时间进行了体验 一句话总结,google很大方,但…

数据驱动构建企业动态全面预算管理架构

在过去的20年里,电子表格一直是企业用于规划、预测、预算和管理报告的主要工具,尽管有的企业具备针对财务的系统,但其应用效率和规划技术仍然难以满足市场需求。并且,大部分企业对于财务管理的部署成本相对较低,其可访…

事务隔离级别:保障数据库并发事务的一致性与性能

目录 引言 1. 事务隔离级别概述 2. 读未提交隔离级别 3. 读已提交隔离级别 4. 可重复读隔离级别 5. 串行化隔离级别 6. 保障事务隔离级别的机制 7. 如何选择合适的隔离级别 8. 结语 引言 在数据库管理系统(DBMS)中,事务隔离级别是一…

基于ssm的北京集联软件科技有限公司信息管理系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本信息管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&am…

卷积详解和并行卷积

ps:在 TensorFlow Keras 中,构建 Sequential 模型的正确方式是将层作为列表传递,而不是作为一系列单独的参数。 modelmodels.Sequential([layers,layers]) 而不是modelmodels.Sequential(layers,layers) 文章目录 卷积…

『OPEN3D』1.8.3 多份点云配准

多份点云配准是将多份点云数据在全局空间中对齐的过程。通常,输入是一组数据(例如点云或RGBD图像){Pi}。输出是一组刚性变换{Ti},使得经过变换的点云在全局空间中对齐。 NNNNNathan 本专栏地址: https://blog.csdn.net/qq_41366026/category_12186023.html 此处是…

GridBagLayout GridBagConstraints 笔记231130

实例化使用模板 GridBagLayout gbl new GridBagLayout(); // gbl.columnWidths new int[]{200,200,200}; // 用数组设置列 // gbl.rowHeights new int[]{100,100,100,100,100}; // 用数组设置行GridBagConstraints gbc new GridBagConstraints();/*** gridBagConstrain…