IntelまたはApple Silicon Mac上でのBert-Vits2 2.3 中国語拡張ローカル推論
はじめに
Bert-VITS2は、VITS2のバックボーンと多言語BERTモデルを組み合わせた革新的なテキスト読み上げ合成プロジェクトです。この統合により、特に多言語コンテキストにおいて、音声合成能力が向上しています。このプロジェクトは、中国語処理に特化したバージョン「Extra: 中文特化版本」で特に注目されています。この開発は、多様な言語ニーズに対応する音声合成分野における重要な進歩を表しています。
このチュートリアルでは、MacプラットフォームでCPUを使用してこのプロジェクトを実行する方法について説明します。
このチュートリアルは以下のサイトの動画と実践に基づいています。
参考動画とドキュメントは以下の通りです:
-
Bert-VITS2データセットを上手に作成する方法
-
[Bert-vits2] ラベリング済みですぐに使えるクラウドミラーリングトレーニングチュートリアル
-
Macでの訓練についてはまだ考えないでください。前処理と推論ができれば十分です。LLMの実行は可能かもしれませんが、Macで(MPSを使用して)訓練に成功した方がいれば、ご連絡ください。
-
このチュートリアルは主に、訓練後にモデルをローカルマシンにダウンロードして推論を行うプロセスについて説明します。テスト済みで、すべて正常に動作します。
-
訓練に関する情報は上記の参考動画で詳しく説明されています。データセットが重要で、訓練には忍耐が必要です。
-
ワンクリックパッケージのBert-Vits2を使用する方が更に簡単です。私が個人にテストしたところ、中国語で非常にうまく動作しました。
プロジェクトリンク: https://github.com/fishaudio/Bert-VITS2
このチュートリアルはコミュニケーションと学習目的のみを意図しています。違法、不道徳、または非倫理的な目的での使用はお控えください。
データセットに関する認可の問題は、ご自身で対処してください。非認可データセットを訓練に使用することによって生じる問題や結果について、すべての責任はユーザーが負うものとします。リポジトリとその管理者、svc開発チームは、その結果に対する関連性や責任を一切否認します。
政治関連の目的での使用は固く禁じられています。
ソフトウェア要件:
- Homebrew https://brew.sh/
- VScode (オプション)
- Python3
私はBert-Vits2 Extra中国語特化版を使用しています。他のバージョンは、トレーニングと推論のバージョンが同じであることに注意してください https://github.com/fishaudio/Bert-VITS2/releases/tag/Extra
Bert-Vits2 Mac推論
1. 仮想環境の作成
仮想環境を作成します
1 | python3 -m venv myenv #'myenv'を任意の名前に変更可能 |
2. 仮想環境に入る
1 | cd myenv |
1 | source bin/activate |
3. プロジェクトのダウンロード
1 | https://github.com/fishaudio/BertVITS2/archive/refs/tags/Extra.zip |
ダウンロード後は自分で解凍してください
プロジェクトディレクトリにcd
で移動
4. パッケージのインストール
1 | pip install -r requirements.txt |
1 | pip install torch torchvision torchaudio |
5. WebUIの起動
WebUIを起動してエラーを確認します
1 | python webui.py |
私のテストでは、主にファイルが少なく、CPU推論を使用しています
6. config.ymlの変更
7. その他のファイルの変更
テストしたファイルをGitHubに参考用にアップロードしました
https://github.com/One-CloseX/Bert-Vits2-Mac-Changed-File
ファイルは数日前に変更されました。具体的な内容は覚えていません。動作する場合は、移動させないでください。
エラーに応じて他のファイルを置き換えてください
Erlangshen-MegatronBert-1.3B-ChineseとEmotionフォルダは、最初に解凍してください。
8. WebUIの再起動
1 | python webui.py |
結果はこちらです!
まとめ
- Macでのローカル推論:テスト後もMPSにいくつかの問題があり、依然としてCPUで実行しています。しかし、少なくとも動作させることはできました。私はあまり熟練していないので、現時点ではこれが限界です。WindowsとNVIDIAカードがあれば、はるかに快適です。
- モデル:トレーニング効果は依然として非常に良好です。多くの長いステップでトレーニングする必要はありません。サーバーで数時間実行すれば十分です(もちろん、データセット次第です)。
ご覧いただきありがとうございます。チュートリアルに関して質問や改善点がありましたら、ご指摘ください。