从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45

news/2024/7/10 21:15:51 标签: 音视频, 人工智能, 开源

picture

facebookresearch/audiocraft

Stars: 16.6k License: MIT

AudioCraft 是一个用于音频生成的 PyTorch 库。它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码,可以产生高质量音频。该项目还提供了其他功能:

  • MusicGen:一种最新技术实现的可控文本到音乐模型。
  • AudioGen:一种最新技术实现的文本到声音模型。
  • EnCodec:一种高保真度神经音频编解码器。
  • Multi Band Diffusion:使用扩散算法与 EnCodec 兼容的解码器。

此外,AudioCraft 还包括深度学习研究中使用到的 PyTorch 组件以及开发出来各个模型所需训练流程管道等内容,并提供 API 文档、常见问题 FAQ 等信息。

w-okada/voice-changer

Stars: 12.4k License: NOASSERTION

picture

VC Client 是一个用于实时音频转换的客户端软件,使用各种语音转换 AI (VC,Voice Conversion) 进行操作。该项目支持多个平台,并且可以通过网络连接来卸载外部负载以处理音频转换任务。主要功能包括:

  • 支持多种声音变化 AI
    • MMVC
    • so-vits-svc
    • RVC(Retrieval-based-Voice-Conversion)
    • DDSP-SVC
    • Beatrice JVS Corpus Edition (试验性)
  • 提供事前构建好的二进制文件和 Docker/Anaconda 环境搭建两种使用方式。
  • 可以实现高效率、低延迟的实时语音变化;
  • 跨平台兼容性强,适用于 Windows、Mac(M1)、Linux 等系统;

espnet/espnet

Stars: 7.2k License: Apache-2.0

picture

ESPnet 是一个端到端的语音处理工具包,涵盖了端到端语音识别、文本转语音、语音翻译、语音增强、说话人分离等功能。该工具使用 pytorch 作为深度学习引擎,并遵循 Kaldi 风格的数据处理和特征提取/格式以及配方来提供各种不同的实验设置。

  • 支持多个 ASR (自动演讲识别) 配方
  • 支持类似于 ASR 配方一样的 TTS (文本转声)
  • 支持 ST (Speech Translation) 配方
  • 提供完整且易用的命令行界面和脚本接口

babysor/MockingBird

Stars: 31.6k License: NOASSERTION

picture

这个项目是一个实时语音克隆的开源项目,主要功能包括支持中文、使用 PyTorch 进行训练和推理、可以在 Windows 和 Linux 系统上运行以及提供 Web 服务器。该项目的核心优势和特点包括:

  • 支持多种数据集,并经过测试
  • 可与最新版本 (2021年8月) 的 PyTorch 一起工作,并且可以利用 GPU 加速
  • 通过重复使用预先训练好的编码器/解码器来轻松生成令人印象深刻的效果
  • 提供 Web 服务器,方便远程调用结果

CorentinJ/Real-Time-Voice-Cloning

Stars: 43.3k License: NOASSERTION

picture

这个开源项目是一个实时语音克隆工具,可以在5秒内复制一种声音,并生成任意文本的语音。

该项目的主要功能包括:

  • 从几秒钟的录音中创建声纹模型
  • 根据给定文本使用参考声纹模型合成语音

该项目有以下关键特性和核心优势:

  • 实时处理:能够快速进行语言克隆并生成对应文字内容。
  • 多说话人支持:通过转移学习技术,使得系统能适用于多个不同说话人。
  • 简单易用:提供了简洁明了的安装和配置指南以及演示脚本。

neonbjb/tortoise-tts

Stars: 7.2k License: Apache-2.0

TorToiSe 是一个多音色 TTS 系统,其重点在于质量。

它具有以下优势和特点:

  • 强大的多声道功能。
  • 高度逼真的韵律和语调。
  • 可以使用自己预训练的模型。
  • 改进了读取工具,并添加了新选项。

http://www.niftyadmin.cn/n/5247752.html

相关文章

ASO优化:帮助实现企业和用户的共赢

大数据时代APP拉获新客,ASO优化应该这么玩! 市场那么大,用户那么广。企业设计的APP如何在茫茫人群中精准地把自己送到用户面前,并与ta产生沟通呢。随着时代的发展,数据成为企业竞争的核心。APP的营销发展离不开数据推…

学习php中使用composer下载安装firebase/php-jwt 以及调用方法

学习php中使用composer下载安装firebase/php-jwt 以及调用方法 1、安装firebase/php-jwt2、封装jwt类 1、安装firebase/php-jwt composer require firebase/php-jwt安装好以后出现以下文件: 2、封装jwt类 根据所使用的php框架&#xff0c;在指定目录创建 Token.php <?ph…

托盘四向穿梭车自动化密集库供应|单机智能向系统智能跨越的HEGERLS托盘四向车系统

随着物流产业的迅猛发展&#xff0c;托盘四向穿梭式自动化密集仓储系统可认为是在穿梭车货架系统基础上提出的一种新仓储概念。托盘四向穿梭式立体库因其在流通仓储体系中所具有的高效密集存储功能优势、运作成本优势与系统化智能化管理优势&#xff0c;已发展为仓储物流的主流…

Unity 自定义窗口

放在Editor文件夹下&#xff1b; #if UNITY_EDITORusing System; using UnityEditor; using UnityEngine;namespace EditorCustumTool {/// <summary>/// 自定义窗口/// </summary>public class CustomWindow : EditorWindow{public enum FlagType{Flag1 101,Fl…

算法复习——6种排序方法的简单回顾

算法复习——6种排序方法的简单回顾 常见排序方法&#xff1a;冒泡排序、选择排序、插入排序、堆排序、归并排序、快速排序的简单回顾 冒泡排序 重复“从序列右边开始比较相邻两个数字的大小,再根据结果交换两个数字的位置” 在冒泡排序中&#xff0c;第 1 轮需要比较 n - 1…

做题笔记:SQL Sever 方式做牛客SQL的题目--VQ34

–VQ34 话题的分布情况 牛客有评论记录表comment_detail&#xff0c;输出所有第二话题为1002的评论对应的第一话题subject_id1的数量cnt&#xff0c;按照第一话题升序排序&#xff0c;查询返回结果名称和顺序为&#xff1a; subject_id1|cnt 表的创建及数据添加&#xff1a; …

数据库基础学习01计算机二级-第一章 数据库技术的基本概念与方法

目录 1. 数据库基础知识 2 关系数据库 数据库设计基础 MySQL概述 1. 数据库基础知识 数据、数据库数据库管理系统、数据库系统是数据库技术最为密切相关的基本概念。 数据库管理系统 DataBase Management System, DBMS)。 主要功能包括数据定义、数据操纵、数据建立和维护、…

LeetCode 每日一题 Day 6(DFS+BFS)

1466. 重新规划路线 n 座城市&#xff0c;从 0 到 n-1 编号&#xff0c;其间共有 n-1 条路线。因此&#xff0c;要想在两座不同城市之间旅行只有唯一一条路线可供选择&#xff08;路线网形成一颗树&#xff09;。去年&#xff0c;交通运输部决定重新规划路线&#xff0c;以改变…