【面倒な環境構築不要】簡単に使えるAIボイスチェンジャー Koemake RVC Player

2023年5月3日2023年5月21日

つくよみちゃんとは?
夢前黎様によって作られたフリー素材キャラクター。
イラスト素材：えみゃコーラ様
■企画・デザイン：夢前黎様

近年、生成系AIは目まぐるしい進化を遂げています。ChatGPT, Stable Diffusion, DALE・E2, Google Bardなど枚挙に暇がありません。また、生成系AIに限らず様々な分野でAIが活用されています。
その分野の一つが「音声変換・ボイスチェンジャー」です。AIを活用したボイスチェンジャーにはたくさんの種類があり、一つ一つが異なるアプローチで処理を行っています。いくつか紹介しましょう。

VITSを活用したAIボイスチェンジャー

so-vits-svc, DDSP-SVC
SoftVCとVITSを組み合わせて変換元話者によらない音質変換を実現。
RVC
faissによるベクトル類似検索を利用。
MMVC
Seiren Voice(予想)

Diffusionモデルを活用したAIボイスチェンジャー

Diff-SVC
話題の拡散確率モデルを用いたボイスチェンジャー。

これらのAIボイスチェンジャーは高品質、高性能でとても魅力的です。しかし、利用するにあたって不便な点があります。
それが、Pythonで環境構築をしなければならないということです。

花咲春

環境構築がとても面倒なのです。

上の画像はStable Diffusion Web UIの例です。AIはオープンソースのライブラリを使用して作成されていることが多い、というかほぼすべてのソフトがライブラリを使用しているのです。ライブラリを利用するためには使用する環境でライブラリが導入されていなければならない上、ライブラリの互換性にも配慮する必要があります。バージョンが違って実行すらできないことなんてざらにあります。まるでヨーグルトのようなメンタルを持つ私では精神的に辛いです。

ところが、今までの常識を覆すようなソフトウェアが現れました。
今回はRVCを活用したボイスチェンジャー、Koemake RVC Playerで簡単にAIボイスチェンジャーを体験する方法を紹介します。※ここからはKoemake RVC PlayerをKoemake と省略します。

あらすじ

Koemakeの何がすごいのか

Koemakeのすごいところ、それはPythonで環境構築をする必要がない点です。ソフトウェアに必要なライブラリが内包されているためダウンロードしたらすぐに使い始めることが可能です。それでは、導入手順を紹介しましょう。

導入手順

Koemake Projectにアカウント登録＆ダウンロード

まず、Koemake Projectのサイトにアクセスしてアカウントを登録します。
サイト右上のログインボタンを押しましょう。

ログイン画面が出てきたら新規登録タブに移動してメールアドレス、パスワードを設定してアカウントを作成します。

アカウント登録が完了すると自動でログインされます。
ログインした状態でページの真ん中あたりにあるダウンロードボタンをクリックします。

利用規約に目を通した後、利用規約に同意してダウンロードボタンを押します。

花咲春

利用規約の内容をまとめると
1.再配布しちゃダメだよ
2.つくよみちゃんプロジェクトの規約に従ってね
3.不具合が出ても責任は取りません
となっています。単純明快で分かりやすいですね。

Google Driveのリンクが開きますので、ダウンロードでzipファイルをダウンロードします。

ダウンロードしたzipファイルを解凍します。

これでソフトウェアの準備は完了です。

Koemakeを開く

koemake.exeを実行します。

起動できましたね。

使い方

花咲春

ここで、スペシャルゲストをお呼びしました! つくよみちゃんの登場です!

つくよみちゃん

どうも、つくよみちゃんです。

花咲春

特技が営業スマイルって本当ですか!?

つくよみちゃん

そうですよ!
みんなを笑顔にしたい、その一心で頑張っています。

花咲春

そうなんですね。
ここからはつくよみちゃんと一緒にKoemakeの具体的な使い方、応用方法を紹介します。

イラスト素材：えみゃコーラ様
■企画・デザイン：夢前黎様

UIの図解

① ターゲット音声(モデル) ※現状はつくよみちゃんのみ
② メニュー切り替え
③ マイクの音声をパススルー
④ 出力をミュート
⑤ ノイズ除去音声にノイズが乗るときは値を上げる
⑥ どれだけ入力音声をターゲット音声(モデル)にフィットさせるかのパラメーター声に合わせて調整
⑦ 変換後の声の高さを調整するパラメーター男性→女性なら+12 女性から男性なら-12 同性なら0が基準
⑧ 変換後の音量を調整するパラメーター
⑨ 入力、出力デバイス