# API接続

SillyTavernは幅広いLLM APIに接続できます。以下は、それぞれの長所、短所、使用例の説明です。

# ELI5: Chat Completions と Text Completions

STで初めて「API Connections」ページに移動すると、「Chat Completion」や「Text Completion」などの用語を使用してオプションを選択するドロップダウンオプションがあります。これが何を意味するかを理解すると役立ちます。

そうでないもの: 「Text Completion」をローカルモデル、「Chat Completion」をクラウドベースのLLMと考えがちですが、そうではありません。STのAPIドロップダウンの別個のオプションになっていても、例えば「Novel AI」や「Kobold」が実際には完全に別のタイプのモデルであるわけでもありません。適切なバックエンドを使用してモデルを異なるAPI構造に強制できますが、それはこのセクションの目的ではありません。

STを使用してメッセージを送信すると、チャット、キャラクターの説明、およびlorebooksやauthor's notesなどの他のプロンプトが単一の「プロンプト」に構築されてモデルに送信されます。使用しているモデルのAPI「タイプ」は、このプロンプトがどのように正確に構築されるかを決定します(STがバックグラウンドで自動的に処理します - STターミナルを開いて、AIに送信されるプロンプトがどのように見えるかを正確に確認できます)。

# Chat Completions

Chat Completionモデルは、その名前が示すように、プロンプトをUser(あなた)とAssistant(AI)またはSystem(中立)の間の一連のメッセージに構造化します。Chat Completionのためにトレーニングされたモデルは、AIが最後のメッセージに「応答」する「チャット」の感覚を作り出すのに役立ちます。ChatGPT Webサイトを使用しているとき、バックグラウンドでChat Completions APIを扱っています。

# Text Completions (別名 "Completions")

一方、Text Completionは、その名前が示すように、プロンプトを1つの長い文字列に変換し、モデルは単純にこれを続けようとします(文字通り、すべてのテキスト、数百のメッセージ、すべてのフォーマット、改行などが1つの非常に長い文に圧縮されることを想像してください)。

STでのメッセージがYourPersona:とCharacter:の間の一連のメッセージとしてフォーマットされている場合、Text Completionモデルはこのパターンを続けようとし、STはそれを新しいチャットメッセージとしてレンダリングしますが、実際にはモデルは単にテキストを続けようとしているだけです。「The Sun rises in the」という入力を提供した場合、text completionモデルはおそらく「East」でそのメッセージを完成させます。

ほとんどのText Completionモデルには、Chat Completionモデルと同じようにメッセージと指示に「応答」するのに役立つ推奨される「Instruct Template」があります(通常、モデルのドキュメントまたはダウンロードページに記載されています)。STには通常、「Advanced Formatting」ページで選択できるほとんど(すべてではないにしても)のInstruct Templatesがあります。

# ローカルAPI

これらのLLM APIはPCで実行できます。
使用は無料で、コンテンツフィルターがありません。
インストールプロセスは複雑になる可能性があります(SillyTavern開発チームはこれに対するサポートを提供していません)。
HuggingFaceからLLMモデルを個別にダウンロードする必要があり、それぞれ5-50GBになる可能性があります。
ほとんどのモデルはクラウドLLM APIほど強力ではありません。

# KoboldCpp

CPUオフロードを備えた使いやすいAPI(低VRAM ユーザーに役立つ)とストリーミング
Windows、Mac、Linuxで単一のバイナリファイルから実行
GGUFモデルをサポート
AutoGPTQやExllama/v2などのGPU専用ローダーよりも遅い
GitHub、Setup Instructions

# llama.cpp

KoboldCppとOllamaがフォークされた元のソース
プリコンパイルされたバイナリとソースからコンパイルするオプションを提供
GGUFモデルをサポート
llama-server用の軽量CLIインターフェース
GitHub

# Ollama

すべてのllama.cppベースのAPIの中で最もセットアップと使用が簡単
ワンクリックダウンロード可能なモデルの優れたカタログ
Ollama独自のフォーマットでラップされたGGUFモデルをサポート
GitHub、Website

# Oobabooga TextGeneration WebUI

ストリーミングを備えたオールインワンGradio UI
量子化(AWQ、Exl2、GGML、GGUF、GPTQ)およびFP16モデルの最も広範なサポート
ワンクリックインストーラーが利用可能
定期的な更新により、SillyTavernとの互換性が損なわれることがある
GitHub

SillyTavernをOobaの新しいOpenAI APIに接続する正しい方法:

Oobabooga's TextGenの最新アップデートを使用していることを確認してください(2023年11月14日時点)。
CMD_FLAGS.txtファイルを編集し、そこに--apiフラグを追加します。次にOobaのサーバーを再起動します。
STをhttp://localhost:5000/(デフォルト)に接続し、「Legacy API」ボックスをチェックしないでください。Oobaのコンソールが提供するURLから/v1接尾辞を削除できます。

--api-port 5001フラグを使用してAPIホスティングポートを変更できます。ここで5001はカスタムポートです。

# TabbyAPI

ストリーミングを備えた軽量のExllamav2ベースのAPI
Exl2、GPTQ、およびFP16モデルをサポート
公式エクステンションにより、SillyTavernから直接モデルのロード/アンロードが可能
低VRAMユーザーには推奨されません(CPUオフロードなし)
GitHub、Setup Instructions

# KoboldAI Classic (非推奨、開発終了)

PCで実行、100%プライベート、幅広いモデルが利用可能
AIの生成設定を最も直接的に制御
GPU内に大量のVRAMが必要(LLMモデルに応じて6-24GB)
モデルは2kコンテキストに制限
ストリーミングなし
人気のあるKoboldAIバージョン:
- Henky's United
- 0cc4m's 4bit-supporting United

# クラウドLLM API

これらのLLM APIはクラウドサービスとして実行され、PC上のリソースを必要としません
ほとんどのローカルLLMよりも強力/スマート
ただし、すべてさまざまな程度のコンテンツフィルタリングがあり、ほとんどは支払いが必要です

# AI Horde

SillyTavernは追加設定なしでこのAPIにそのままアクセスできます
個々のボランティア(Horde Workers)のGPUを使用してチャット入力の応答を処理
生成待ち時間、AI設定、利用可能なモデルに関してWorkerの裁量に委ねられる
Website、Setup Instructions

# OpenAI (ChatGPT)

セットアップとAPIキーの取得が簡単
クレジットの前払いが必要で、プロンプトごとに課金
非常に論理的。創造的なスタイルは反復的で予測可能な場合がある
新しいモデルのほとんど(gpt-4-turbo、gpt-4o)はマルチモダリティをサポート
Website、Setup Instructions

# Claude (Anthropic)

AIチャットに創造的でユニークなライティングスタイルを求めるユーザーに推奨
クレジットの前払いが必要で、プロンプトごとに課金
最新のモデル(Claude 3)はマルチモダリティをサポート
特定のプロンプトスタイルと返信操作のためのprefillsの利用が必要
Website、Setup Instructions

# Google AI Studio と Vertex AI

レート制限付きの無料ティアがあり(Gemini Flash)、請求情報が必要な場合があります
AI Studioは通常、最新のモデルと機能を持っています
Vertex AIはセットアップが難しいですが、より安定しています
Setup Instructions

# Mistral (Mistral AI)

さまざまなサイズと使用例の効率的なモデル。プラットフォームでアカウントとAPIキーを作成できます。
一般使用の場合は32kから128kのコンテキストサイズ、コーディングの場合は32kから256kのコンテキストサイズ。
レート制限付きの無料ティア。
合理的なモデレーション、Mistralの主な原則は中立でユーザーをエンパワーすること、詳細はこちら。
Website、Setup Instructions

# OpenRouter

市場のすべての主要LLMにアクセスするための統一APIを提供
トークンごとの課金クレジットシステム、および1日あたりのリクエスト数が制限された無料モデル
LLMベンダーが要求しない限り、モデレーションは強制されません
Website、Setup Instructions

# DeepSeek

非常に人気のあるDeepSeek V3(deepseek-chat)とDeepSeek R1(deepseek-reasoner)モデルの最新バージョンへのアクセスを提供
クレジットの支払いが必要($2最小)ですが、モデルは品質に対してかなり安価
APIにモデレーションはありませんが、モデルは特定のプロンプトを拒否する場合があります
Website、Setup Instructions

# AI21

Jambaファミリーのオープンモデルへのアクセスを提供
無料トライアルがあり(3か月で$10)、その後はトークンごとに月額支払いが必要
Website、Setup Instructions

# Cohere

Cohereの最新モデル(command-r、command-a、c4ai-ayaなど)へのアクセスを提供
カジュアル使用に十分なレート制限を持つ無料ティア(Trial Keys)があります
Website、Setup Instructions

# Perplexity

APIを介してユニークなPerplexity Sonarオンライン対応モデルへのアクセスを提供
請求の設定とクレジットの購入が必要
Website、Setup Instructions

# Mancer AI

さまざまなファミリーの制約のないモデルをホストするサービス
さまざまなモデルのトークンに対して「クレジット」を使用して支払い
デフォルトではプロンプトをログに記録しませんが、有効にしてトークンのクレジット割引を受けることができます。
Oobabooga TextGeneration WebUIに似たAPIを使用、詳細はMancer docsを参照。
Website、Setup Instructions

# DreamGen

ステアラブルな創造的なライティングのために調整された検閲なしのモデル
無料の月次クレジット、および有料サブスクリプション
7Bから70Bまでのモデル
Setup Instructions

# Pollinations

セットアップ不要、そのまま使用可能
幅広いモデルへの無料アクセスを提供
出力には時折、サードパーティサービスへのリンクを含む広告が含まれる場合があります

# NovelAI

コンテンツフィルターなし、最新モデルはLlama 3ベース
有料サブスクリプションが必要、ティアによって最大コンテキスト長が決定されます
Website、Setup Instructions

# Electron Hub

1つのAPIキーで複数のベンダー(OpenAI、Anthropic、DeepSeekなど)のテキストおよび画像生成モデルへのアクセスを解除
毎日$0.25の無料クレジット、有料プランあり
Website、Setup Instructions

# AI/ML API

Claude、GPT-4o、Gemini、LLaMA 3、Mistralなどを含む300以上のモデルの統一API
レート制限付きの無料ティア、サブスクリプションプラン、および従量課金制オプションがあります
Website、Docs、Models