IntelまたはApple Silicon Mac上でのGPT-SoVITSローカル推論
はじめに
「GPT-SoVITS」のGitHubリポジトリは、音声データ処理とテキスト読み上げ(TTS)技術に焦点を当てたプロジェクトです。わずか1分の音声データで優れたTTSモデルを訓練できる「few shot voice cloning(少数ショット音声クローニング)」という手法を特徴としています。このプロジェクトはMITライセンスの下で提供され、主にPythonプログラミング言語を使用しています。
重要:
このチュートリアルは期限切れとなり、プロジェクトはすでにMACをサポートしています。GitHubのチュートリアルに従ってください。
このチュートリアルでは、MacプラットフォームでCPUを使用してこのプロジェクトを実行する方法について説明します。
- Macでの訓練についてはまだ考えないでください。前処理と推論ができれば十分です。LLMの実行は可能かもしれませんが、Macで(MPSを使用して)訓練に成功した方がいれば、ご連絡ください。
- このチュートリアルは主に、訓練後にモデルをローカルマシンにダウンロードして推論を行うプロセスについて説明します。テスト済みで、すべて正常に動作します。
- 訓練に関する情報は上記の参考動画で詳しく説明されています。データセットが重要で、訓練には忍耐が必要です。
MPSはサポートされていません
プロジェクトリンク: https://github.com/RVC-Boss/GPT-SoVITS
このチュートリアルはコミュニケーションと学習目的のみを意図しています。違法、不道徳、または非倫理的な目的での使用はお控えください。
データセットに関する認可の問題は、ご自身で対処してください。非認可データセットを訓練に使用することによって生じる問題や結果について、すべての責任はユーザーが負うものとします。リポジトリとその管理者、svc開発チームは、その結果に対する関連性や責任を一切否認します。
政治関連の目的での使用は固く禁じられています。
ソフトウェア要件:
- Homebrew https://brew.sh/
- VScode (オプション)
- Python3.9
1 | brew install python3.9 |
ローカル推論
1. 仮想環境の作成
仮想環境を作成します
1 | python3.9 -m venv myenv #'myenv'を別の名前に変更可能 |
2. 仮想環境に入る
1 | cd myenv |
1 | source bin/activate |
3. プロジェクトのダウンロード
1 | git clone https://github.com/RVC-Boss/GPT-SoVITS.git |
プロジェクトディレクトリにcd
で移動
4. パッケージのダウンロード
1 | brew install ffmpeg |
1 | pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet |
追加要件
中国語ASR(FunASRによってサポート)が必要な場合は、以下をインストールしてください:
1 | pip install modelscope torchaudio sentencepiece funasr |
注意:No module named
が表示された場合は、そのパッケージをインストールしてください。
requirements.txt
を使用してインストールすることもできますが、問題がある場合は、上記で説明したものだけをインストールしてください。
1 | pip install -r requirements.txt # 実行する必要はありません |
GPT-SoVITS Modelsから事前訓練済みモデルをダウンロードし、GPT_SoVITS/pretrained_models
に配置してください。
中国語ASR(追加)の場合、Damo ASR Model、Damo VAD Model、Damo Punc Modelからモデルをダウンロードし、tools/damo_asr/models
に配置してください。
UVR5(ボーカル/伴奏分離&リバーブ除去、追加)の場合、UVR5 Weightsからモデルをダウンロードし、tools/uvr5/uvr5_weights
に配置してください。
ワンクリックパッケージが必要な場合: https://github.com/RVC-Boss/GPT-SoVITS/issues/4
5. WebUIの起動
1 | python web.py |
6. モデルの選択
モデルは2つのフォルダにあります。1つはGPTモデル用、もう1つはSoVITSモデル用です。ファイルを適切なフォルダに配置する必要があります。
1 |
|
7. inference_webui.pyの変更
CUDA
をCPU
に変更- 半精度から全精度に変更
model.half()
—>model.float()
処理済みファイル: https://github.com/RoversX/GPT-SoVITS/blob/main/GPT_SoVITS/inference_webui.py
変更を保存して再実行するだけで動作します。
ご覧いただきありがとうございます。チュートリアルに関して質問や改善点がありましたら、ご指摘ください。