×

使って初めて分かった「リアルタイムSTT」Deepgramの凄さ

使って初めて分かった「リアルタイムSTT」Deepgramの凄さ

先にまとめ!

  • 会議中の文字起こしは、「STTなら何でも同じ」ではありませんでした。
  • Deepgramは、私が欲しかった「会議中に追随する体感」に近かったです。
  • 馴染みのない海外サービスほど、性能の前に「会社の輪郭」と「公式情報の出し方」を見たほうが安心でした。

前提:AI参加会議に「会議中の文字起こし」を入れたかった

私が作っている「AI参加会議」は、会議の途中で状況を把握して、必要なタイミングでAIに意見を求めるためのアプリです。
そのために、まず必要になるのが音声→テキスト(STT)です。

開発前、私が知っていたのは主に次の2つでした。

  • OpenAI Whisper
  • Google系のSTT(音声をAPIで文字起こしする、という理解)

ただ、「会議中にリアルタイムで動くこと」を前提に調べると、前提が違いま した。
Google AI Studioで使用できるAPIサービスでは今回のアプリには使えなかったのです。
それでもOpenAIのWhisper一択は避けたかったので、色々と調べたところ、Deepgram と AssemblyAIというサービスがあると知りました。(※後者に関しては現段階では未実装)


やったこと:リアルタイム前提で選択肢を洗い直した

私がやったことはシンプルです。

  • 「会議中に動く」ことを条件に、候補を洗い直す
  • 実際に叩いて、遅延と使い勝手を確認する
  • アプリの制約(当時はサーバーを最小にしたい)に合うかを見る

この過程で、認識が変わった点が2つあります。

1) Whisperは「完全なリアルタイム」になりにくい

Whisper自体は強いです。
ただ私の実装・調査の範囲では、音声を一定の塊(チャンク)で送って処理する形になりやすく、体感が「少し遅れて付いてくる」になりました。そこでアプリでは5秒から2分のチャンクの幅を設けました。

※ここは環境や実装で変わと思いますので断言はできません。

2) AssemblyAIは「サーバー前提」の設計になりやすく、今回は見送った

AssemblyAIは魅力的ですが、私の当時の構成では、サーバー側の設計が実質必要になりました。
今回は「まず動くものを作る」を優先し、一旦見送りました。

ただ、将来的にサーバーを用意するなら、選択肢に戻ってきます。

3)DeepgramがリアルタイムでWEBアプリでも利用できるらしい。

私が目指したBYOKで軽い実装を実現できそうなサービスがDeepgramでした。
しかし、寡聞にして聞いたことがありません。


やったこと:まず「提供企業」を見て、安心材料を集めた

Deepgramは、日本では馴染みが薄いと思います。
私は名前すら知りませんでした。
なので、性能の前に「どんな会社か」を確認しました。

Deepgramは、米国のスタートアップ支援プログラム Y Combinator(YC) の採択企業として公開リストに掲載されています。
W16は Winter 2016(2016年冬の採択組) を意味するそうです。
YCは採択企業を公開しており、会社の基本情報(創業年や創業者など)を一次情報として辿れます。
もちろん「YC出身だから安全」とは言い切れませんが、私は“馴染みのない海外サービス”を使う時の最初の確認ポイントにしています。

公式ドキュメント。

公式のドキュメントが非常にしっかりしています。
機能カテゴリと、Trust & Security への導線が最初から用意されています。

起きたこと:Deepgramが“思っていたリアルタイム”に近かった

恐る恐るDeepgramを試したところ、体感として「これが欲しかったやつ」に近かったです。

  • 会議中に、認識結果が返り続ける
  • ストリーミング(WebSocket)前提で、実装の筋が通っている

キャプション案
AI参加会議のSTT設定画面。Deepgramは Realtime(WebSocket・高速)として扱い、Whisperは別の特性として残しました。

実装では、STTプロバイダーを切り替えられる形にしました。
私の用途は「会議中に追随する」なので、DeepgramはRealtimeとして扱います。
こうしておくと、精度・遅延・コストのバランスを会議の状況に合わせて切り替えやすくなります。

まず試せた(導線の強さ)


私の画面。最初に200$のクレジットが付与され、Pay As You Goで始められました。

※金額や条件は将来変わる可能性があります。


価格:DeepgramとOpenAI Whisper(系)を比べてみる(※執筆時点の公式表示)

ここは誤解が出やすいので、先に結論を書きます。

  • 単価だけを見ると、OpenAIの文字起こし(Transcribe系)の方が安いケースがある
  • ただし私は今回、「会議中に追随する体感(リアルタイム)」と「実装の素直さ」を優先してDeepgramに寄せました

1分あたりの目安(USD) 2026/01/08時点(ChatGPT5.2Thinking調べ)

Deepgram(Speech-to-Text / Streaming)

  • Nova-3(Monolingual):$0.0077 / 分(Pay As You Go) Deepgram
  • Nova-3(Multilingual):$0.0092 / 分(Pay As You Go) Deepgram

OpenAI(Transcription / speech generation の “Estimated cost” 表記)

ざっくり1時間換算:
Deepgram Nova-3(mono)≈ $0.46/時、OpenAI(gpt-4o-transcribe)≈ $0.36/時、miniなら≈ $0.18/時(計算:分単価×60)

Deepgram Nova-3(Monolingual):$0.462/時 → 約 ¥72/時
Deepgram Nova-3(Multilingual):$0.87/時 → 約 ¥136/時
OpenAI gpt-4o-transcribe:$0.36/時 → 約 ¥56/時
OpenAI gpt-4o-mini-transcribe:$0.18/時 → 約 ¥28/時

Deepgramは使えるし信用できそうだ

個人的にテストしている段階では、日本語音声の認識と文字起こし精度も相当高いです。
個人的にはリアルタイムなのにWhisperを超えているのではないかと思います
(この辺は後日検証します)

また“安全かどうか”は断言できませんが、公式がどこまで公開しているかを一つの基準として確認していますDeepgramは Security Policy を公開しています。」

私が見たのは、次の3点です。

  • Trust & Security関連の情報が整理されている
  • セキュリティポリシーのページが公開されている(=参照できる)
  • ユーザーコミュニティの規模

私はこのページをブックマークしました。

https://developers.deepgram.com/trust-security/security-policy

ここで私が言えるのは、「公式に公開があるので、判断材料として参照できた」という事実までです。
「だから安全」と断言はしません。
ただ、馴染みのない海外サービスほど、この“参照できる場所”があるかどうかは大きいです。


今後の検討課題

ひとまずアプリをリリースしましたが、まだまだ検討すべき点は多いです。

  • 日本語×会議音声で、どの設定がいちばん実用精度になるか
  • partial(途中経過)→final(確定)を、UIにどう出すのが良いか
  • 会議が長時間になった時のコスト感
  • 鍵管理やログ運用の現実解

次にやる(Next)

  • Deepgramストリーミングで、partial表示/final確定のUIを詰める
  • 自分の会議ログで、設定差(モデル・言語・句読点など)を試してメモする

参考リンク

  • Security Policy(Deepgram公式) https://developers.deepgram.com/trust-security/security-policy

コメントを送信

CAPTCHA