音声認識アプリを試し打ち！ - ～右耳を誰かのために～

2018年８月。

縁があって、音声認識アプリのUDトークの派遣現場に通訳者として参加させていただきました。

約４年ぶりの派遣現場ということでかなり久々でしたが、初めて音声認識アプリでの現場に入ったので少し感想を書きたいと思います。

先ずＵＤトークとは？
４年ぶりの派遣現場！
音声認識アプリを使ってみた！

先ずＵＤトークとは？

音声認識技術を使ってリアルタイムで字幕を作成、表示できるアプリケーションです。

udtalk.jp

人間の耳で聴いて人間の手によって話が文字化される要約筆記やノートテイクとは異なり、スマートホンやガンマイクのような集音機器で音を拾い、アプリケーションを通して見える化します。

UDトークの機能には下記のものがあります。（ＨＰより抜粋）

・音声認識エンジンAmiVoice®（アミボイス）を使って、会話／スピーチをリアルタイムに文字化します。AmiVoiceは「日本語」「英語（北米）」「中国語（簡体字）」「韓国語」が使用できます。

・日本語のみ音声認識の単語登録ができます。

・多言語音声認識エンジンはApple社、Google社のもを採用しています。

・QRコードをカメラで読み取ってアプリ同士を接続して会話のやり取りを行うことができます。

・日中韓英語では高電社の「翻訳クラウド」、その他の言語は「Google翻訳」による多言語翻訳機能でリアルタイムに文字翻訳をすることができます。

・音声合成機能で内容を読み上げることができます。

・手書きでのやりとりができます。

・キーボードでの入力（本体、Bluetooth）ができます。

・アドオンを購入することでパソコン上で起動する連携アプリから入力したり様々な機能拡張をすることができます。

・Apple WatchおよびApple Pencilに対応

私が初めてUDトークを目にしたのは、2017年９月に東京ミッドタウンで開催された"LIVES TOKYO 2017"の会場でした。

yamahoo.hatenablog.com

４年ぶりの派遣現場！

2014年12月に参加した香川県での派遣現場が最後だったと思います。

当時は東京転勤が決まった時期くらいで、東京では新しいことにチャレンジするのかなーと思っていました。

私は進学する度に部活を変えており、中学ではテニス部、高校は放送部、大学では合唱部とノートテイク、就職で要約筆記というように、環境が変われば視野を広げるためにコミュニティを変えてきました。

東京では違うことをするんだろうなと自然に考えていましたが、ブログを書こうと思うほどに今もガッツリ要約筆記に関わっています(笑)

同時に大学２年からノートテイクを始めて７年目を迎えていた頃で、初めて空白期間が出来ました。

要約筆記者指導者養成研修と全国統一要約筆記者認定試験で本番みたいなことを少しやっただけで、派遣現場のようなちゃんとした本番は久しぶりでした。

yamahoo.hatenablog.com

さすがに久々の現場だったので、指先と耳の感覚を訓練し直しました。

お話を頂いてから派遣当日までが１週間程度と短かったので、タイピングスピードと両腕の体力に絞って感覚を戻しました。

これは私が当日までに行うルーティーンですが、先ずは「美佳タイプ」でタイピングスピードを上げ直し、「タイプウェル」で腕の体力を戻しながら漢字変換の精度を上げます。

あとは当日まで音声を聞きながらパソコンを打つ感覚を戻します。

最近はNHKラジオ「らじる★らじる」を使ってニュースや解説などを聞いて、同時並行で時事ネタを腕に覚えさせます(^^)

www.nhk.or.jp

音声認識アプリを使ってみた！

今回の派遣現場で使用したのは、①UDトーク表示用の端末、②集音機器、③集音機器で拾った音を５秒遅れでイヤホンに流してくれる機械、④同じ仕組みの12秒遅れ版。

UDトークの仕様では約５秒遅れで音声認識後の文字が表示されるため、その文字の誤変換と過不足を修正する上では③は必要な機材でした。

下記が私が実際に使用した画面キャプチャです。

（掲載用にユーザーIDの塗りつぶしなどの処理を施しています。）

f:id:yamahoo0412:20180906230347j:plain

集音機器で拾った音が文字化され、「表示エリア」に表示されます。

表示エリアに表示された文章を修正したい場合、該当の文章を選択すると「修正エリア」に表示され、加筆修正することで「表示エリア」に修正後の文章が表示されます。

（※当ブログでは伝えやすくするために「表示エリア」、「修正エリア」と表現しているので正式名称ではありません。）

使ってみた感想としては、単純に入力する量が減って体力の温存ができるということ。

これまでノートテイクで打ってきたような全文筆記以上の文章量が正確に目の前に現れます。

何もすることがない時間帯があったので驚きです！Σ(゜Д゜)

但し、UDトークを使いこなせる技術もしくは要約筆記やノートテイクの現場経験、いずれかの経験が必要だなと思いました。

「表示エリア」に③で拾った音声が文章として現れますが、修正の有無を確認するために自分のパソコンの画面を見続けます。

PowerPointや配布資料を確認しずらいなと感じました。

私は約４年のブランクがあり、久々の現場が初めてUDトークを使用する現場ではありましたが、大学と社会人で様々な現場を経験してきたので、ある程度臨機応変に対応できました。

しかし養成講座と現任研修を終えたばかりの人はテキストの中身を学習し、尚且つ統一試験対策でガチガチの状態なので、いきなり派遣するのは少し難しい現場なのかなと思いました。

私が今回入った現場は偶然にも、外部からのネット環境が入りづらい会場でした。

こういった現場の場合、ネットワークが途絶えると音声を拾ったとしても表示されるまでに時間がかかります。

しかしネットワークが復活すると拾った音声が全て「表示エリア」に表示されるので、通訳者はある程度講演内容を覚えておく必要があります。

Iptalkを使用するときの前ロールのような入力が「修正エリア」の下のエリアで可能ですが、ネットワークが復活すると文字化されたものが全て表示されるので、内容が重複する恐れがあります。

私はネットワークが途切れた間はWordを起動してちょっとしたノートテイクを行い、ネットワーク復活後は「表示エリア」に流れてくる文章と講演内容の現在地を確認しており、ノートテイクをメモ代わりとして使っていました。

私が取った方法が正解だとは思いません。

実際にネットワークを復活させる技術を持っていませんし、UDトークの現場は初めてでだったので、機材については分からないことだらけです。

でも１人の通訳者としてベストな選択をしたと思っています。

ただまあ私が見てきたUDトークの現場はスムーズに表示されていたので、レアケースにあたったのかなと思います(´･ω･｀)

楽な現場もドッと疲れる現場も色々経験してきた私としては、凄く良い経験になりました。

yamahoo.hatenablog.com

あとは表現の統一でしょうか。

要約筆記では表出文字についてある程度の規則がありますが、今のところ音声認識にはないのかなと感じました。

通訳者各々の基準で修正することにもなるので、現場経験のある要約筆記者や指導できる知識と感覚を備えた人が現場を回せば、表出文字が一定の規則で統一されて修正されるのかなと思います。

またUDトークの現場に入りたいなと思います。

私は練習があまり好きではありませんが、現場は好きです( ´∀｀)

基本的には色んな話を聞くことができるので、パソコンを打つ時間が減るということは話を聞く時間が増えるということ。

速打ちの練習をしなくていいんだ！・・・と考えるのは甘いでしょうか(笑)

最後に、私はあくまでご縁があって今回のお話をいただき、１人の通訳者として現場にいただけで代表者でも主催者でもありません。

私個人のブログで講演内容を公表できる立場ではないので、派遣された現場の内容とお話をいただいた方については割愛させていただきます。