OpenAI Whisper APIを試す。
(この記事は2023年1月に書きました)
OpenAIOpenAIが公開している音声認識モデル”WhisperWhisper”が話題になっていたので試してみました。
以前から、会議などの議事録作成を自動化しようと、文字起こしアプリを色々と試して入るのですが、満足できるレベルに至っておりません。
Web会議ではTeamsTeamsを使う機会が多かったので、TranscriptTranscriptを使っていました。
全員がTeamsで会議に参加できない場合は、あまり精度が上がらないため、
私は、有料サービスのnottanottaを使っています。
nottaの使い心地と、Whisperとの比較については後日別記事で挙げる予定です。
結論から言えば、精度はWhisper、速度と精度のバランス、使いやすさではnottaに軍配にあがりました。(私の環境が悪い可能性は否めません。)
私の環境を以下に記載します。
Python 3.10.9Macbookpro2017
3.5 GHz デュアルコアIntel Core i7
Intel Iris Plus Graphics 650 1536 MB
16 GB 2133 MHz LPDDR3
今回はCPUで動かしました。
環境の構築に関しては、こちらの方の記事を参考にいたしました。
https://vivinko.com/inoue/blog/2022/09/22/231252.html
余談
※恥ずかしながら、Macのターミナルを今回初めて使いました。
記事の通りにやろうとしてうまく行かず、四苦八苦しました。
その辺のエピソードは別の記事に書こうと思いますが、少しだけ述べると、
音声ファイルの指定にpassを貼り付けずに、ファイル名だけ書き込んでいました。
それで3日無駄にした
比較に使った音声データは、筑波大学の落合陽一助教がパーソナリティを務めるWeeklyOCHIAIから、Iphoneアプリの”PCM録音”で採取しました。
~ % whisper /Users/gatyoukatyou/20230115_173627.wav --language Japanese --model medium
[06:19.000 –> 06:27.000] オムロンのサイデンに載ってるサイニック理論のページが出てくるんですけども オムロンの創業者の立石さんもですね 昔こんなことを考えており[06:27.000 –> 06:32.240] これなかなかよくまとまってるんですよ 例えばちょっと大きくするとですね
[06:32.240 –> 06:42.000] 原子社会 集中社会 農業社会 手工業社会 工業社会 機械化社会といって その後に自立化社会 自動化社会 情報化社会というところが[06:42.000 –> 06:47.360] 1970年って彼らが言っていてですね その後に出てくるのが最適化社会[06:47.360 –> 06:53.280] 最適化社会に近づいてますね あらゆるものが例えばデータベースによってリコメンドされたりとか
[06:53.280 –> 06:58.600] そういったようなものによって 例えばマイナンバーとって PHRとって
[06:58.600 –> 07:03.000] 我々の人生この後どんな病気になるのかとかを予想しながら生きていく社会
以下はnotta 有料版の記事
オムロンのサイトに載ってる際ニック理論のページがちょっと出てくるんですけども、討論の創業者の立石さんもですね、昔こんなことを考えており、これなかなかよくまとまってるんですよ。
発言者 1 06:28 例えば、ちょっと大きくするとですね入院はいはい原始社会集住社会農業社会手工業社会工業社会化社会といって、その後にあの自立化社会じゃ自動化社会情報化社会だと思うが、1970年って、彼らは言っているんですね。
発言者 1 06:44 そん中にその後に出てくるのは最適化社会、正確に近づいてますね。あらゆるものが例えば、データベースによってリコメンドされたりとか、そういったようなものによって我々の例えばマイナンバーとってピーチRとって我々の人生この後どんな病気になるのかとかを予想しながら生きていく社会
ちなみに10分の音声(54.8MB)を書き起こすのに、Whisper(mediam)が2:12:30秒
nottaおそらく10秒もかかっていません。
やはり有料サービスは強い。
コメントを送信