スタジオおふとん

プログラミング系

RVCで声帯を作るときに詰まった点

まず完成形

https://misskey.gamelore.fun/storage/files/d112fe39-ebf9-43f2-96ad-446e954b8e90.mp3

misskey.gamelore.fun

環境

MMVCのときと微妙に構成が違う理由は後述。

asahane.hatenablog.com

手順

おおむね下記

eyatu-vrc.hatenablog.com

目标采样率は48kにチェック入れておくといいかも。

詰まりポイント

RVC側

port使ってないのに使われてるといわれる

普通にgo-web.batをたたくとこのメッセージ確認する前に閉じちゃうので、コマンドプロンプトからgo-web.batに書いてある内容実行して、それっぽいメッセージが出ていたらこれ。
infer-web.pyの最後の行のserver_portを適当な値(7965など)に変えればOK

クライアント側

RuntimeError: "slow_conv2d_cpu" not implemented for 'Half' Voice Changer Client

v.1.5.1.15bを使うとなる。
v.1.5.1.15aを使うと出なくなる。

scrapbox.io

ブツブツ言ってて明らかにおかしい

音声機材周りを48KHzに統一しないと、サンプリングレートの関係上おかしくなるっぽい。
なので、XBOX Wireless Headsetで使えない。
ゲームするときマイク置くの邪魔だし、いちいちセッティングするのもめんどいので、私はしばらくはMMVCでいいかな、という感じ。

その他感想

すごいはすごいんだけど、ぶっちゃけTuning次第でいくらでも変わるので、学習させた声に近いか?って言われたらよくわからん。
とりあえず何かしらリアルタイムボイチェンしたい。という願いはかなえてくれそう。

追記

このあといろいろやってみたが、やっぱり気軽に学習できるのは強い。
ただ、やっぱりTuningでどうとでも変わるので、「君誰?」ってなる。
そういう意味では誰でもない誰かになるのには強いのかも。
違う視点で考えると、声の種類にタグ付けができていれば音声版Stable Diffusionとして好みの声の作成も可能か?

あと、かなりクリアなのでキモイしゃべり方がそのまま反映されてまぁまぁつらい。