V
STS パイプライン解説
Speech-to-Speech 技術ガイド

1 各コンポーネントの解説

STT Speech-to-Text — 音声認識
エンジン種別レイテンシ VRAM日本語品質コスト備考
ReazonSpeech セルフホスト(GPU) ~317ms 1,276 MiB ◎ 日本語特化 無料 現在採用中。500msプレバッファで精度UP
Moonshine セルフホスト(GPU) ~283ms 222 MiB ○ 良好 無料 最軽量・最速、webm直送OK
Deepgram API ~100-300ms 従量課金 ストリーミングSTT対応
Whisper (OpenAI) API ~500ms 従量課金 高精度だがリアルタイム不向き
LLM Large Language Model — 応答生成
エンジン種別TTFT 品質コスト備考
Gemini 3.1 Flash-Lite API ~1.0s 安い 2.5より40%高速。Gemini最速
Groq (Llama系) API ~0.3s 安い 現在フォールバック
GPT-4o API ~0.5s 高い Realtime API内蔵
Gemini 2.5 Flash API ~0.3s Flash-Liteの上位
LLM TTFT ランキング(実測値・モデル別, 2026-03-08)

TTFT = Time To First Token。ap-northeast-1から実測。Groqは100回、OpenAI 100回、Gemini 20回計測(2-3秒間隔)。

順位プロバイダモデル MinP10中央値平均P90MaxSD 備考
🥇 1 Groq Llama 3.1 8B Instant 186187190ms19119746127 最速・最安定。N=100
🥈 2 Groq Llama 3.3 70B 186189200ms22028930140 70Bでも高速。N=100
🥉 3 OpenAI GPT-4o-mini 340428549ms77269514,638 N=100。外れ値1件あり
4 OpenAI GPT-4o 301468617ms7781,2376,316 N=100。品質最高。P90大
5 Google Gemini 3.1 Flash-Lite 8728841,008ms1,0971,3661,789219 N=20。2.5より40%高速。採用中
6 Google Gemini 3.0 Flash 1,0531,0531,196ms1,4392,4192,666524 N=14 (6err)。不安定
7 Google Gemini 2.5 Flash-Lite 1,5581,6051,670ms1,7141,8572,213145 N=20。安定だが遅い
TTS Text-to-Speech — 音声合成
エンジン種別レイテンシ VRAM日本語品質ゼロショットコスト備考
Kokoro セルフホスト(GPU) ~50ms ~500 MiB ✕ プリセット 無料 現在採用中。Non-autoregressive、最速
ElevenLabs API 200-500ms ◎ Instant Clone $99/月 音声クローン対応、高品質
VOICEVOX セルフホスト(GPU) ~200ms ~800 MiB ✕ プリセット 無料 キャラクター音声、40話者
Style-Bert-VITS2 セルフホスト(GPU) ~500ms ~1,500 MiB ✕ 要学習 無料 日本語特化、感情表現
AivisSpeech セルフホスト(GPU) ~300ms ~800 MiB ✕ プリセット 無料 VOICEVOX互換
VC Voice Conversion — 声質変換
エンジン種別レイテンシ VRAM品質ゼロショット備考
RVC セルフホスト(GPU) 250-380ms ~2,000 MiB ✕ 要学習 現在採用中。1s→250ms, 5s→310ms, 8s→380ms
OpenVoice V2 セルフホスト(GPU) 80-90ms ~800 MiB ◎ リファレンス 最速VC。RVCと共存可
Seed-VC セルフホスト(GPU) 330-345ms ~6,000 MiB ◎ リファレンス 高品質。RVCと共存不可、起動~70秒
LLVC セルフホスト(GPU) 45-120ms ~500 MiB ✕ 要学習 超低レイテンシ。他VCと共存可
E2E End-to-End — 音声→音声直接変換
エンジン種別レイテンシ 日本語コスト備考
Gemini 2.5 Flash Native Audio API ~0.3-0.5s ◎ 24言語 OpenAIの1/3〜1/2 30種HD音声、WebSocket双方向。音声→音声直接
GPT-4o Realtime / gpt-realtime API ~0.5s $32/$64 per 1M tokens 現在採用中。安定性高い
Qwen3-Omni セルフホスト 未検証 ○ 多言語 無料(GPU代のみ) MoEアーキテクチャ。L4で動くか要検証
Amazon Nova 2 Sonic API 低レイテンシ △ 未知数 AWS料金 AWS環境と親和性高

2 パイプライン候補

現行パイプライン(稼働中)
OpenAI Realtime + Kokoro + RVC
現在採用中
🎤 → GPT-4o Realtime (E2E) → Kokoro TTS → RVC → 🔊
※ STTはReazonSpeechで表示用のみ
レイテンシ
~0.5s
月額コスト
~2-3万円
メリット
低レイテンシ、高品質、安定
デメリット
コスト高
Groq STS パイプライン
現在採用中
🎤 → ReazonSpeech STT → Groq/Gemini LLM → Kokoro TTS → RVC → 🔊
レイテンシ
~1-2s
月額コスト
~7-8千円
メリット
安い、カスタマイズ性高、RVC使える
デメリット
E2Eよりレイテンシ遅い
新規候補
Gemini 2.5 Flash Native Audio
検証候補
🎤 → Gemini Native Audio (E2E) → 🔊
レイテンシ
~0.3-0.5s
月額コスト
OpenAIの1/3〜1/2
メリット
最安E2E、低レイテンシ、日本語◎、30音声
デメリット
RVC連携不可、音声カスタマイズ限定的
gpt-realtime 新モデル
検証候補
🎤 → gpt-realtime (E2E) → 🔊
or → Kokoro → RVC → 🔊
レイテンシ
~0.5s
月額コスト
現行から20%値下げ
メリット
安定、現行からの移行容易
デメリット
まだ高い
Qwen3-Omni セルフホスト
要検証
🎤 → Qwen3-Omni (E2E) → 🔊
レイテンシ
未検証
月額コスト
無料(GPU代のみ)
メリット
完全無料、カスタマイズ自由
デメリット
L4で動くか未検証、セットアップ大変
Gemini Flash-Lite パイプライン改良版
検証候補
🎤 → Moonshine STT → Gemini Flash-Lite → Kokoro TTS → RVC → 🔊
レイテンシ
~0.8-1.2s
月額コスト
~5千円
メリット
最安パイプライン、RVC使える、既存資産活用
デメリット
E2Eより遅い
ElevenLabs Agent
検証候補
🎤 → ElevenLabs STT → 任意LLM → ElevenLabs TTS → 🔊
レイテンシ
~0.5-1s
月額コスト
$99 (Pro)
メリット
音声クローン高品質、オーケストレーション済み
デメリット
コスト高、RVC不可、カスタム音声は要学習
Deepgram + Groq + Kokoro
検証候補
🎤 → Deepgram STT (streaming) → Groq LLM → Kokoro TTS → RVC → 🔊
レイテンシ
~0.6-1s
月額コスト
~1万円
メリット
ストリーミングSTTで体感改善、RVC使える
デメリット
Deepgram有料
評価軸別 最強候補まとめ
評価軸 最強候補
最安 5. Qwen3-Omni / 6. Gemini Flash-Lite
最速 3. Gemini Native Audio
最高品質 7. ElevenLabs / 4. gpt-realtime
RVC連携可 2, 6, 8(パイプライン系)
既存資産活用 6. Gemini Flash-Lite改良版
将来性 3. Gemini Native Audio / 5. Qwen3-Omni

3 検証済み・候補外

以下は検証の結果、採用候補から除外したもの。今後の検討で考慮不要。

種別名前除外理由
TTSFish Speech 1.5L4で~2.6秒。Autoregressive、実用速度出ず
TTSCosyVoice 2L4で2-9秒。文長に比例して遅くなる
TTSXTTS v2L4で~1秒。日本語に中国語アクセント混入
TTSChatterbox英語専用。日本語非対応
TTSEdge-TTS500-2000ms。ネットワーク依存で変動大、リアルタイム不向き
STTSenseVoice~725ms。Moonshine/ReazonSpeechより遅く優位性なし
STTParakeet (faster-whisper)日本語精度が実用レベルでない
E2EKyutai Moshi日本語対応が限定的
E2EQwen3-OmniL4 24GBではVRAM不足(INT4量子化でも既存サービスと共存不可)