まず完成形
https://misskey.gamelore.fun/storage/files/d112fe39-ebf9-43f2-96ad-446e954b8e90.mp3
環境
- Windows 10
- CPU i9-9900K
- メモリ32G
- RTX3090
- RME Fireface 400
- Shure Beta57a
MMVCのときと微妙に構成が違う理由は後述。
手順
おおむね下記
目标采样率は48kにチェック入れておくといいかも。
詰まりポイント
RVC側
port使ってないのに使われてるといわれる
普通にgo-web.batをたたくとこのメッセージ確認する前に閉じちゃうので、コマンドプロンプトからgo-web.batに書いてある内容実行して、それっぽいメッセージが出ていたらこれ。
infer-web.pyの最後の行のserver_portを適当な値(7965など)に変えればOK
クライアント側
RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' Voice Changer Client
v.1.5.1.15bを使うとなる。
v.1.5.1.15aを使うと出なくなる。
ブツブツ言ってて明らかにおかしい
音声機材周りを48KHzに統一しないと、サンプリングレートの関係上おかしくなるっぽい。
なので、XBOX Wireless Headsetで使えない。
ゲームするときマイク置くの邪魔だし、いちいちセッティングするのもめんどいので、私はしばらくはMMVCでいいかな、という感じ。
その他感想
すごいはすごいんだけど、ぶっちゃけTuning次第でいくらでも変わるので、学習させた声に近いか?って言われたらよくわからん。
とりあえず何かしらリアルタイムボイチェンしたい。という願いはかなえてくれそう。
追記
このあといろいろやってみたが、やっぱり気軽に学習できるのは強い。
ただ、やっぱりTuningでどうとでも変わるので、「君誰?」ってなる。
そういう意味では誰でもない誰かになるのには強いのかも。
違う視点で考えると、声の種類にタグ付けができていれば音声版Stable Diffusionとして好みの声の作成も可能か?
あと、かなりクリアなのでキモイしゃべり方がそのまま反映されてまぁまぁつらい。