STS パイプライン解説

1 各コンポーネントの解説

STT Speech-to-Text — 音声認識

エンジン	種別	レイテンシ	VRAM	日本語品質	コスト	備考
ReazonSpeech	セルフホスト(GPU)	~317ms	1,276 MiB	◎ 日本語特化	無料	現在採用中。500msプレバッファで精度UP
Moonshine	セルフホスト(GPU)	~283ms	222 MiB	○ 良好	無料	最軽量・最速、webm直送OK
Deepgram	API	~100-300ms	—	○	従量課金	ストリーミングSTT対応
Whisper (OpenAI)	API	~500ms	—	◎	従量課金	高精度だがリアルタイム不向き

LLM Large Language Model — 応答生成

エンジン	種別	TTFT	品質	コスト	備考
Gemini 3.1 Flash-Lite	API	~1.0s	○	安い	2.5より40%高速。Gemini最速
Groq (Llama系)	API	~0.3s	○	安い	現在フォールバック
GPT-4o	API	~0.5s	◎	高い	Realtime API内蔵
Gemini 2.5 Flash	API	~0.3s	◎	中	Flash-Liteの上位

LLM TTFT ランキング（実測値・モデル別, 2026-03-08）

TTFT = Time To First Token。ap-northeast-1から実測。Groqは100回、OpenAI 100回、Gemini 20回計測（2-3秒間隔）。

順位	プロバイダ	モデル	Min	P10	中央値	平均	P90	Max	SD	備考
🥇 1	Groq	Llama 3.1 8B Instant	186	187	190ms	191	197	461	27	最速・最安定。N=100
🥈 2	Groq	Llama 3.3 70B	186	189	200ms	220	289	301	40	70Bでも高速。N=100
🥉 3	OpenAI	GPT-4o-mini	340	428	549ms	772	695	14,638	—	N=100。外れ値1件あり
4	OpenAI	GPT-4o	301	468	617ms	778	1,237	6,316	—	N=100。品質最高。P90大
5	Google	Gemini 3.1 Flash-Lite	872	884	1,008ms	1,097	1,366	1,789	219	N=20。2.5より40%高速。採用中
6	Google	Gemini 3.0 Flash	1,053	1,053	1,196ms	1,439	2,419	2,666	524	N=14 (6err)。不安定
7	Google	Gemini 2.5 Flash-Lite	1,558	1,605	1,670ms	1,714	1,857	2,213	145	N=20。安定だが遅い

TTS Text-to-Speech — 音声合成

エンジン	種別	レイテンシ	VRAM	日本語品質	ゼロショット	コスト	備考
Kokoro	セルフホスト(GPU)	~50ms	~500 MiB	◎	✕ プリセット	無料	現在採用中。Non-autoregressive、最速
ElevenLabs	API	200-500ms	—	◎	◎ Instant Clone	$99/月	音声クローン対応、高品質
VOICEVOX	セルフホスト(GPU)	~200ms	~800 MiB	◎	✕ プリセット	無料	キャラクター音声、40話者
Style-Bert-VITS2	セルフホスト(GPU)	~500ms	~1,500 MiB	◎	✕ 要学習	無料	日本語特化、感情表現
AivisSpeech	セルフホスト(GPU)	~300ms	~800 MiB	◎	✕ プリセット	無料	VOICEVOX互換

VC Voice Conversion — 声質変換

エンジン	種別	レイテンシ	VRAM	品質	ゼロショット	備考
RVC	セルフホスト(GPU)	250-380ms	~2,000 MiB	◎	✕ 要学習	現在採用中。1s→250ms, 5s→310ms, 8s→380ms
OpenVoice V2	セルフホスト(GPU)	80-90ms	~800 MiB	○	◎ リファレンス	最速VC。RVCと共存可
Seed-VC	セルフホスト(GPU)	330-345ms	~6,000 MiB	◎	◎ リファレンス	高品質。RVCと共存不可、起動~70秒
LLVC	セルフホスト(GPU)	45-120ms	~500 MiB	○	✕ 要学習	超低レイテンシ。他VCと共存可

E2E End-to-End — 音声→音声直接変換

エンジン	種別	レイテンシ	日本語	コスト	備考
Gemini 2.5 Flash Native Audio	API	~0.3-0.5s	◎ 24言語	OpenAIの1/3〜1/2	30種HD音声、WebSocket双方向。音声→音声直接
GPT-4o Realtime / gpt-realtime	API	~0.5s	◎	$32/$64 per 1M tokens	現在採用中。安定性高い
Qwen3-Omni	セルフホスト	未検証	○ 多言語	無料(GPU代のみ)	MoEアーキテクチャ。L4で動くか要検証
Amazon Nova 2 Sonic	API	低レイテンシ	△ 未知数	AWS料金	AWS環境と親和性高

2 パイプライン候補

現行パイプライン（稼働中）

OpenAI Realtime + Kokoro + RVC

現在採用中

🎤 → GPT-4o Realtime (E2E) → Kokoro TTS → RVC → 🔊
※ STTはReazonSpeechで表示用のみ

レイテンシ

~0.5s

月額コスト

~2-3万円

メリット

低レイテンシ、高品質、安定

デメリット

コスト高

Groq STS パイプライン

現在採用中

🎤 → ReazonSpeech STT → Groq/Gemini LLM → Kokoro TTS → RVC → 🔊

レイテンシ

~1-2s

月額コスト

~7-8千円

メリット

安い、カスタマイズ性高、RVC使える

デメリット

E2Eよりレイテンシ遅い

新規候補

Gemini 2.5 Flash Native Audio

検証候補

🎤 → Gemini Native Audio (E2E) → 🔊

レイテンシ

~0.3-0.5s

月額コスト

OpenAIの1/3〜1/2

メリット

最安E2E、低レイテンシ、日本語◎、30音声

デメリット

RVC連携不可、音声カスタマイズ限定的

gpt-realtime 新モデル

検証候補

🎤 → gpt-realtime (E2E) → 🔊
or → Kokoro → RVC → 🔊

レイテンシ

~0.5s

月額コスト

現行から20%値下げ

メリット

安定、現行からの移行容易

デメリット

まだ高い

Qwen3-Omni セルフホスト

要検証

🎤 → Qwen3-Omni (E2E) → 🔊

レイテンシ

未検証

月額コスト

無料(GPU代のみ)

メリット

完全無料、カスタマイズ自由

デメリット

L4で動くか未検証、セットアップ大変

Gemini Flash-Lite パイプライン改良版

検証候補

🎤 → Moonshine STT → Gemini Flash-Lite → Kokoro TTS → RVC → 🔊

レイテンシ

~0.8-1.2s

月額コスト

~5千円

メリット

最安パイプライン、RVC使える、既存資産活用

デメリット

E2Eより遅い

ElevenLabs Agent

検証候補

🎤 → ElevenLabs STT → 任意LLM → ElevenLabs TTS → 🔊

レイテンシ

~0.5-1s

月額コスト

$99 (Pro)

メリット

音声クローン高品質、オーケストレーション済み

デメリット

コスト高、RVC不可、カスタム音声は要学習

Deepgram + Groq + Kokoro

検証候補

🎤 → Deepgram STT (streaming) → Groq LLM → Kokoro TTS → RVC → 🔊

レイテンシ

~0.6-1s

月額コスト

~1万円

メリット

ストリーミングSTTで体感改善、RVC使える

デメリット

Deepgram有料

評価軸別最強候補まとめ

評価軸	最強候補
最安	5. Qwen3-Omni / 6. Gemini Flash-Lite
最速	3. Gemini Native Audio
最高品質	7. ElevenLabs / 4. gpt-realtime
RVC連携可	2, 6, 8（パイプライン系）
既存資産活用	6. Gemini Flash-Lite改良版
将来性	3. Gemini Native Audio / 5. Qwen3-Omni

3 検証済み・候補外

以下は検証の結果、採用候補から除外したもの。今後の検討で考慮不要。

種別	名前	除外理由
TTS	Fish Speech 1.5	L4で~2.6秒。Autoregressive、実用速度出ず
TTS	CosyVoice 2	L4で2-9秒。文長に比例して遅くなる
TTS	XTTS v2	L4で~1秒。日本語に中国語アクセント混入
TTS	Chatterbox	英語専用。日本語非対応
TTS	Edge-TTS	500-2000ms。ネットワーク依存で変動大、リアルタイム不向き
STT	SenseVoice	~725ms。Moonshine/ReazonSpeechより遅く優位性なし
STT	Parakeet (faster-whisper)	日本語精度が実用レベルでない
E2E	Kyutai Moshi	日本語対応が限定的
E2E	Qwen3-Omni	L4 24GBではVRAM不足（INT4量子化でも既存サービスと共存不可）