Real-Time Voice Cloningを試してみた

Real-Time Voice Cloning を見つけて、面白そうなので試してみました。

リポジトリをクローンして、 pip install -r requirements.txt でパッケージをインストール中に、 clang: error: invalid version number in 'MACOSX_DEPLOYMENT_TARGET=11' というエラーメッセージが出ました。

$ clang --version
Apple clang version 11.0.3 (clang-1103.0.32.59)
Target: x86_64-apple-darwin20.6.0
Thread model: posix
InstalledDir: /Library/Developer/CommandLineTools/usr/bin

clang のバージョンが古いので更新が必要です。

CommandLineTools を削除して再インストールすれば解決できました。

$ sudo rm -rf /Library/Developer/CommandLineTools
$ sudo xcode-select --install
$ clang --version
Apple clang version 12.0.5 (clang-1205.0.22.11)
Target: x86_64-apple-darwin20.6.0
Thread model: posix
InstalledDir: /Library/Developer/CommandLineTools/usr/bin

あとは、学習済みモデルをダウンロードします。samples ディレクトリには音声のサンプルがあるので、データセットはダウンロードしなくてもいいです。

さっそく GUI を起動して試してみましょう。

python demo_toolbox.py

alt