# 音声認識

このガイドでは、SillyTavern内で音声をテキストに書き込むための音声認識のセットアップについて説明します。

# 前提条件

開始する前に、以下の前提条件が満たされていることを確認してください:

  • SillyTavernの最新バージョンを使用していることを確認してください。
  • 拡張機能パネルの「拡張機能とアセットをダウンロード」メニューから「音声認識」拡張機能をインストールします(積み重ねられたブロックアイコン)。
  • ffmpegバイナリがインストールされています。詳細についてはRVCセットアップを参照してください。

# 音声認識セットアップ(ブラウザ)

  1. SillyTavernを構成

    • SillyTavernを起動し、拡張機能 > 音声認識に移動します。
    • ドロップダウン オプションから「ブラウザ」を選択します。
    • ブラウザが音声認識をサポートしていない場合は、エラーポップアップが表示されます。
  2. メッセージモードを選択

    • 希望する「メッセージモード」を選択:
      • 追加:メッセージは現在のユーザーメッセージテキスト領域に追加されます。
      • 置換:メッセージはテキスト領域の現在のユーザーメッセージに置き換わります。
      • 自動送信:音声の終了が検出されるとメッセージが自動的に送信されます。
  3. メッセージマッピングを有効にする(オプション):

    • ボーカルショートカット用のフレーズマッピングをセットアップします。
    • たとえば、「コマンド削除 = /del2」を追加することで、「コマンド削除」が検出されるとメッセージが「/del2」コマンドに置き換わります。
    • 自動送信モードと組み合わせると完全な音声制御に役立ちます。「メッセージマッピングを有効」をチェックして有効にします。
  4. 言語を選択

    • 話したい言語を選択(注:すべてのブラウザがすべての言語をサポートするわけではありません)。
  5. 記録

    • 記録を開始するには、メッセージエリアの右側にあるマイクボタンをクリックします(送信ボタンの隣)。もう一度クリックして記録を停止します。音声が検出されないと記録が自動的に停止する可能性があります。

# 音声認識セットアップ(Whisper/Vosk)

  1. プロバイダーを有効化

    • extrasサーバーで希望する音声認識プロバイダーを有効にします:

      python server.py --enable-modules=whisper-stt

      または

      python server.py --enable-modules=vosk-stt
    • --stt-vosk-model-pathまたは--stt-whisper-model-pathオプションでカスタムモデルを追加することもできます。

  2. SillyTavernを構成

    • SillyTavernを起動し、拡張機能 > 音声認識に移動します。
    • ドロップダウン オプションから「Vosk」または「Whisper」を選択(whispereは正確です)。
    • 設定は「ブラウザ」プロバイダーセットアップと同様です(言語を除く)(上記を参照)。

# 音声認識セットアップ(ストリーミング)

  1. プロバイダーを有効化

    • Sillytavern-extrasでストリーミング音声認識モジュールを有効にします:

      python server.py --enable-modules=streaming-stt
  2. SillyTavernを構成

    • (オプション) Whisperセットアップ上記のようなカスタムWhisperモデルを指定します。
    • (オプションですが推奨)SillyTavernでトリガーワードをセットアップします。これらのトリガーワードで開始するメッセージのみがSillyTavernに実際のメッセージとして送信されます。これはランダムスピーチまたはノイズが転記されるのを防ぎます。チェックボックスでこれを有効にします。トリガーワードはチェックボックスを使用して実際のメッセージに含含めるか除外できます。
    • その他の設定は他のプロバイダーと同様です。

これでSillyTavenでテキストに音声を書き込む準備ができました。