はじめに

「GPT-SoVITS」のGitHubリポジトリは、音声データ処理とテキスト読み上げ(TTS)技術に焦点を当てたプロジェクトです。わずか1分の音声データで優れたTTSモデルを訓練できる「few shot voice cloning(少数ショット音声クローニング)」という手法を特徴としています。このプロジェクトはMITライセンスの下で提供され、主にPythonプログラミング言語を使用しています。

重要: このチュートリアルは期限切れとなり、プロジェクトはすでにMACをサポートしています。GitHubのチュートリアルに従ってください。

このチュートリアルでは、MacプラットフォームでCPUを使用してこのプロジェクトを実行する方法について説明します。


中文版本教程

  • Macでの訓練についてはまだ考えないでください。前処理と推論ができれば十分です。LLMの実行は可能かもしれませんが、Macで(MPSを使用して)訓練に成功した方がいれば、ご連絡ください。
  • このチュートリアルは主に、訓練後にモデルをローカルマシンにダウンロードして推論を行うプロセスについて説明します。テスト済みで、すべて正常に動作します。
  • 訓練に関する情報は上記の参考動画で詳しく説明されています。データセットが重要で、訓練には忍耐が必要です。


MPSはサポートされていませんScreenshot 2024-01-18 at 4.44.01 PM.webp


Screenshot 2024-01-18 at 2.23.51 PM.webp

プロジェクトリンク: https://github.com/RVC-Boss/GPT-SoVITS


このチュートリアルはコミュニケーションと学習目的のみを意図しています。違法、不道徳、または非倫理的な目的での使用はお控えください。

データセットに関する認可の問題は、ご自身で対処してください。非認可データセットを訓練に使用することによって生じる問題や結果について、すべての責任はユーザーが負うものとします。リポジトリとその管理者、svc開発チームは、その結果に対する関連性や責任を一切否認します。

政治関連の目的での使用は固く禁じられています。

ソフトウェア要件:

  1. Homebrew https://brew.sh/
  2. VScode (オプション)
  3. Python3.9
1
brew install python3.9

ローカル推論

1. 仮想環境の作成

仮想環境を作成します

1
python3.9 -m venv myenv #'myenv'を別の名前に変更可能

2. 仮想環境に入る

1
cd myenv 
1
source bin/activate 

3. プロジェクトのダウンロード

1
git clone https://github.com/RVC-Boss/GPT-SoVITS.git

プロジェクトディレクトリにcdで移動

4. パッケージのダウンロード

1
brew install ffmpeg
1
pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet

追加要件

中国語ASR(FunASRによってサポート)が必要な場合は、以下をインストールしてください:

1
pip install modelscope torchaudio sentencepiece funasr

注意:No module namedが表示された場合は、そのパッケージをインストールしてください。

requirements.txtを使用してインストールすることもできますが、問題がある場合は、上記で説明したものだけをインストールしてください。

1
pip install -r requirements.txt # 実行する必要はありません

GPT-SoVITS Modelsから事前訓練済みモデルをダウンロードし、GPT_SoVITS/pretrained_modelsに配置してください。

中国語ASR(追加)の場合、Damo ASR ModelDamo VAD ModelDamo Punc Modelからモデルをダウンロードし、tools/damo_asr/modelsに配置してください。

UVR5(ボーカル/伴奏分離&リバーブ除去、追加)の場合、UVR5 Weightsからモデルをダウンロードし、tools/uvr5/uvr5_weightsに配置してください。


ワンクリックパッケージが必要な場合: https://github.com/RVC-Boss/GPT-SoVITS/issues/4

5. WebUIの起動

1
python web.py

298198277-acbbcc49-515f-45f0-9d90-1a15e477f3b5.webp

6. モデルの選択

モデルは2つのフォルダにあります。1つはGPTモデル用、もう1つはSoVITSモデル用です。ファイルを適切なフォルダに配置する必要があります。

1
2
3
4
5
6
7
8
9

この時点でエラーが報告される可能性があります。
CPU推論を使用するために```GPT_SoVITS/inference_webui.py```を修正する必要があります。

```bash
├── GPT_weights
└── LeiJun-e15.ckpt
├── SoVITS_weights
└── LeiJun_e10_s470.pth

298302810-95c5b02f-7145-48f1-a726-d1d7be3ddb18.webp

7. inference_webui.pyの変更

  1. CUDACPUに変更
  2. 半精度から全精度に変更 model.half() —> model.float()

処理済みファイル: https://github.com/RoversX/GPT-SoVITS/blob/main/GPT_SoVITS/inference_webui.py

変更を保存して再実行するだけで動作します。


297881767-3f815414-298b-4e6b-8ac8-796bec78e4c2.webp

ご覧いただきありがとうございます。チュートリアルに関して質問や改善点がありましたら、ご指摘ください。