【ChatGPT:業務効率化】OCR(光学文字認識)とLLM(大規模言語モデル)

深刻な人材不足にあえぐ訪問介護事業においても、デジタル技術を使った業務効率化が叫ばれています。

今回は、勉強会や会議等で使っている動画資料を効率よく作成する手順を紹介します。あかしあでは、基本的に毎月、動画資料を作成しています。

元原稿を用意
元原稿として通常は、自由に研修資料として使える介護雑誌の特集記事を使っています。もちろん、テーマを決めたり、元原稿を探したりするのは人間の仕事です。その際、元原稿となる資料の利用規約は必ず確認しておく必要があります。
元原稿のスキャン
元原稿が決まったら、ページごとにスキャンします。多機能プリンターにはたいてい、スキャン機能も付いています。ページにはたいてい、絵や図が説明文と共に入っていますが、ページ全体をスキャンします。この時、データ形式を必ずjpegにします。PDF形式だとOCRで読み取れないようです。
OCRでテキストの読取
スキャンした画像をからOCRで文字だけを読み取ります。OCR機能はいろいろなアプリについていますが、最も使いやすく正確なのがGoogleフォトです。画像データをGoogleフォトにアップロードし、「画素からテキストをコピー」を押します。画像には絵や図が入っていて、ブロック状に説明文や解説が書かれていて、残念ながらOCRにはブロックごとに文章を読み取る機能はないので、読み取ったテキストは一部順番がバラバラになっているところがあります。
LLMでテキストを清書
読み取った一部順不同のテキストをChatGPTに張り付けると共に、プロンプトで作業を指示します。「以下の文章は行ごとに順番がバラバラになっていますが、意味がつながるように順序を並び替えて、正しい文章になるようにしてください。そのとき、なるべく使わないテキストがないようにして、また、新しい文章を付け加えないで書き直してください。」など、できるだけ条件を指定するのがよいでしょう。
LLMで文章をリライト
このようにして、画像からテキストのみを抽出し、全ページの文章を読み取ります。そのままの状態では長かったり、書き言葉だったりするので、要約やリライトします。「以下の文章を500文字程度に要約、リライトしてください。そのとき、語尾を、~します。~しましょう。などにしてください。」などとプロンプトで指定します。生成された文章は、いったんWordなどに貼り付けて保存しておきます。
文章の推敲
できあがった文章は、自動読み上げアプリで、人間の耳で確認します。漢字を読み間違えることもあるので、ひらがなに直したり、一呼吸おきたいところに句読点を入れます。私たちは「音読さん」を使っています。
音声データのダウンロード
読み上げ原稿の確認が済んだら、声色や読上速度、高低などのパラメーターを調整します。これらが確定できたら、mp3等の音声データとしてダウンロードします。
図表などの素材
必要な図表を元原稿から選んでおきます。音声説明に合わせるため、個々の図表を別ファイルとして保存しておきます。
動画編集
動画編集アプリを立ち上げて、音声データを音声トラックにアップします。メインの動画トラックには、無地の動画を上げておきます。音声データを聞きながら、その説明に合わせる図表を、オーバーレイトラックに貼り付けていきます。タイトルや音楽、フリーの動画素材などを入れたりして完成です。ちなみに、私たちは動画編集に「Videoproc Vloger」を使っています。

慣れてくれば、サクサクっと意外に簡単に作れますよ。

介護の仕事は全てがデジタル化されているわけではなく、紙でやり取りしているものも残っています。被保険者証は紙で介護ソフトに手入力する必要がありますが、これもOCRで読み込めば、間違いもなくなり手間も省けるでしょう。

また、勉強会や定例会議の連絡は、一斉メールやホームページを通じておこなっていますが、その案内文も、動画教材の冒頭部分を音声入力したテキストをLLMで要約すれば、案内の文面も自動で作ることができます。

いかがでしたでしょうか?
OCRとLLMを使うことで、業務の効率化を図ることができます。