記憶の共有は縁の結び目

ライター角田奈穂子の「雑な生活」ほぼ日記

Googleドキュメントの音声認識で文字起こし

f:id:asanohanao:20211209231208p:plain

しばらくnoteのほうに書いていて、それもすっかりご無沙汰に。noteは、1本の原稿を書くくらい気合いを入れて書かないといけない妙な圧迫感があるので、もっと気楽にタラタラ書きたいなぁ、と、はてなブログに戻ってみたら、デザインがnoteっぽくなっておりました。まぁ、いいんですけど。

動画からの文字起こしが必要になったので、久しぶりにGoogleドキュメントの音声認識を使ってみました。スタートしたばかりの頃よりは「おお、進化したなぁ」という感想。それなりに頑張ってはくれている。

ゆっくりのスピードで、句読点を区切って順序よく話してくれる人なら、だいぶ認識してくれます。カタカナは相変わらず苦手だけど、数字の認識度はなかなかのもの。10分程度のNHKニュースなんかだったら、案外、正確に起こしてくれるかもしれない。

が、リアルな会話となると、話が行き来することも多いし、単語を正確に発音するとは限らない。人間は話の流れから、何を指している言葉なのか推測できるけど、Google君は聞き取れないとお手上げ。そして、止まる。音声認識中の赤いマークはそのままだけど、文字を打ち出してくれない。「お、動き出した」と思うと、文章はすっ飛んでいる。そして、認識時間が長くなってくると、真っ白で止まったまま。Google、君は矢吹ジョーか(古っ)

だいたい5〜10分おきに音声認識を止めて、もう一度スタートさせて、を繰り返すことなるので、放置プレイは無理。今回は40分の動画だったのだけど、25分あたりから、どんどんリセット間隔が短くなっていく……。

最後まで認識させてみたけれど、もう一度、自分で聴き直しながら、起こす必要はあるレベルでした。句読点がない、ベタ打ちにしかならないので、誰が話している文章なのかも含めて、読みやすくするために、文章を整える必要があるし。

とはいえ、デビュー当時よりは、少しばかりタイピングの手間は省いてくれるかも?しれない状態までには進化しているので、数年後にはすごいことになっているのかもしれません。

ちなみに、私が文字起こしツールとして頼り切っているのは、長靴編集所の「interview」です。Windows時代は、「おこしやす2」を愛用していたけど、Macに切り替えたので、今は「interview」のみ。

ほぼキーボードで仕事ができるのが理想なので、Command+ファンクションキーで操作できる「interview」はありがたい存在なのです。なくなるとホントに困るので、気持ちばかりのドネーションをしたくらい愛用しております。