AI活用事例

AI文字起こしで研修動画に字幕を付けた宿の業務改善

AI文字起こしで研修動画に字幕を付けた宿の業務改善

この記事の要点

旅館がAI文字起こしツールを使って研修動画に自動字幕を付けた実践事例を紹介。導入手順・かかった時間・スタッフ定着率への効果まで具体的に解説する。

結論:1本90分かかっていた研修動画の字幕付けが15分になった

石川県の温泉旅館(客室38室)では、新人スタッフ向けの接客マニュアル動画を年12本制作していた。問題は字幕だった。外国人アルバイトが増えたことで英語字幕の需要が生まれたが、外注すると1本3万円、社内で手動入力すると1本90分かかっていた。

2025年春にAI文字起こしツール「Notta」を導入し、字幕付け作業を自動化した結果、1本あたりの作業時間が15分に短縮された。費用は月額3,800円。年間の外注費削減額は試算で36万円になる。

この記事では、同旅館が実際に行った導入手順・運用フロー・課題と対処法を、担当者へのヒアリングをもとに詳しく紹介する。


なぜ研修動画に字幕が必要なのか

観光地の旅館・ホテルでは、外国人スタッフの比率が上がり続けている。観光庁の調査では、宿泊業の外国人労働者数は2023年時点で約8万人に達しており、現場では日本語が十分でないスタッフへの教育手段が課題になっている。

字幕がない研修動画には3つの問題がある。第一に、聴覚に困難を抱えるスタッフが内容を理解しにくい。第二に、騒がしい休憩室などで音声を出せない環境では内容が伝わらない。第三に、倍速再生しながら字幕で確認するという学習スタイルに対応できない。

字幕があることで「いつでも・どこでも・自分のペースで」視聴できる研修動画になる。これは教育コンテンツの質ではなく、アクセシビリティの問題だ。


AI文字起こしツールの選び方

研修動画への字幕付けに使えるツールは複数あるが、旅館・ホテルの現場で使いやすいものを選ぶ基準は3点に絞られる。

日本語認識精度字幕ファイル出力(SRT形式)への対応操作の簡単さだ。

ツール日本語精度SRT出力月額(有料)無料枠
Nottaあり1,650円〜3時間/月
Whisper(OpenAI)あり無料(自前環境)無制限
Sonixあり約2,500円〜30分トライアル
Google Cloud STT中〜高要変換従量課金60分/月

月数本の動画であればNottaの無料プランで十分まかなえる。技術スタッフがいるならWhisperをローカルで動かす選択肢もあるが、現場主導で進めるならNottaのようなクラウドサービスが現実的だ。


実際の導入ステップ

石川県の事例をもとに、導入から運用定着までの手順を整理する。

ステップ1:既存の研修動画を棚卸しする

まず何本の動画があり、それぞれ何分かをリスト化する。優先度は「新人が最初に見る動画」「外国人スタッフが困っている内容の動画」の順に高い。同旅館では12本のうち、まず優先度の高い4本(接客基本・チェックイン・館内案内・緊急対応)に絞って着手した。

ステップ2:動画ファイルをNottaにアップロードする

Nottaのウェブブラウザ版にログインし、「新規作成」→「音声・動画ファイルをアップロード」を選択する。対応形式はMP4・MOV・WAV・MP3など主要フォーマットを網羅している。アップロード後、言語を「日本語」に設定して文字起こしを開始する。15分の動画であれば処理は3〜5分で完了する。

ステップ3:文字起こし結果を校正する

自動生成された文字起こし結果は精度80〜90%程度のため、誤認識を修正する必要がある。同旅館の担当者が実測したところ、15分動画の校正にかかる時間は平均10〜12分だった。よく誤認識されるのは旅館固有の用語(屋号、温泉名、館内施設名)だ。これらはあらかじめ単語登録しておくと精度が上がる。

ステップ4:SRTファイルをエクスポートする

校正が終わったら「エクスポート」→「SRT」を選択してダウンロードする。SRTはタイムコード付きの字幕ファイル形式で、YouTubeやVLCメディアプレーヤー、Adobe Premiere Proなど主要な動画プラットフォーム・編集ソフトに対応している。

ステップ5:英語字幕を生成する(必要な場合)

外国人スタッフ向けの英語字幕が必要な場合は、Nottaの翻訳機能またはDeepLを使って日本語SRTを英語に変換する。同旅館ではDeepLにSRTファイルをそのまま貼り付けて翻訳し、タイムコードが崩れないことを確認した上で使用している。翻訳後の英語字幕は人間が一読して文脈がおかしい箇所を修正するが、作業時間は5分程度で済む。

ステップ6:字幕付き動画を共有する

完成した動画とSRTファイルをYouTubeの限定公開でアップロードするか、Google DriveやNotionに保存してURLをスタッフに共有する。同旅館ではNotionの「スタッフ研修ページ」に動画リンクをまとめており、新人は入社後に自分のスマートフォンからアクセスして視聴できる体制を作った。


導入後3か月で何が変わったか

定量的な変化として、以下の3点が確認できた。

研修動画の視聴完了率が41%から78%に上がった。 以前は音声が聞き取りにくいという理由で途中離脱するスタッフが多かったが、字幕があることで最後まで視聴するスタッフが増えた。

外国人スタッフの接客ミスが月平均6件から2件に減った。 接客手順の動画を繰り返し視聴できるようになったことが主因と担当者は分析している。ただし、この変化が字幕のみによるものかは断定できない。同時期に口頭確認の頻度も増やしているため、複合的な効果と見るべきだ。

OJT担当者の説明時間が週4時間から1.5時間に減った。 「動画を先に見てきてください」と伝えることで、口頭説明をすでに知っている内容の確認と質問対応に絞れるようになった。


現場で起きた課題と対処法

課題1:動画の音声品質が低く、認識精度が落ちた

撮影時にスマートフォンを遠くに置いたまま録音していた動画は、認識精度が60%程度に下がった。再撮影するのが理想だが、内容が変わらない動画についてはラベリアマイク(3,000〜5,000円)を使って音声のみ録り直し、動画に後付けした。以降の撮影ではスマートフォンに外付けマイクを装着するルールにした。

課題2:専門用語の誤認識が多い

「仲居」「番頭」「浴衣」「お膳」「のし」など旅館固有の語彙は誤認識されやすい。Nottaのユーザー辞書に単語を登録することで誤認識率が下がる。同旅館では30語ほど登録した。

課題3:スタッフが字幕付き動画をどこで見るか分からない

Notionを使い慣れていないスタッフには、最初の1週間は担当者が隣でアクセス手順を見せた。「URLをブックマークすればいい」と伝えただけでは定着しない。初回の手取り足取りが3か月後の自律的な活用につながる。


AI文字起こし活用をさらに広げるアイデア

研修動画の字幕付けで運用に慣れたら、同じツールを別の用途にも転用できる。

朝礼や引き継ぎの録音を文字起こしして議事録化することも、同じワークフローでできる。実際にAI議事録で引き継ぎ時間を短縮した旅館の事例はAI議事録で朝礼・引き継ぎ時間を半減した旅館の取り組みで詳しく紹介している。

電話応対の録音を文字起こしして、予約内容の確認や応対品質の振り返りに使う旅館も増えている。AIを使った電話対応の全体像については小規模旅館がAI電話自動応答で予約取りこぼしをゼロにした事例も参考にしてほしい。

プロンプトを使ってAIにクレーム対応文の下書きを作らせる運用と組み合わせることで、文字起こし→対応文生成という一連のフローを半自動化できる。具体的な運用手順はAIでクレーム一次対応の下書きを作る旅館の運用フローに詳しい。


始める前に確認すること

導入を検討する前に、3点だけ確認しておきたい。

著作権と肖像権の確認。 研修動画にスタッフの顔や声が映っている場合、クラウドサービスにアップロードすることへの同意を得る必要がある。社内規程や雇用契約によっては追加の手続きが必要なケースがある。

ファイルサイズの制限。 Nottaの無料プランは月3時間・ファイルサイズ100MBまでの制限がある。動画が多い場合は有料プランへの切り替えを検討する。

精度の限界。 AI文字起こしの精度は環境音や方言、早口によって下がる。完全自動化ではなく「80〜90%の精度で下書きを作るツール」として位置づけ、人間による確認を前提にした運用設計にするのが現実的だ。


まとめ

研修動画への字幕付けは、AI文字起こしツールを使えば1本あたり15〜20分の作業で完了する。初期投資はほぼゼロ、月額コストも数千円以内に収まるため、スタッフ育成の質を上げるための施策として費用対効果は高い。

まず1本だけ試してみることを勧める。最初の動画で作業感と精度を体感できれば、残りの動画への展開判断もしやすくなる。ツールの選定や具体的な設定で迷ったら、各ツールの公式ドキュメントを参照してほしい(情報は更新されるため、最新の仕様は公式サイトで確認することを勧める)。


よくある質問

旅館の研修動画にAI字幕を付けるのにどれくらい費用がかかりますか? 無料プランで月3時間まで使えるツールもあり、月数本の研修動画であれば0円から始められます。有料プランは月額2,000〜5,000円程度が相場です。

日本語以外のスタッフにも使えますか? WhisperやNottaなど主要ツールは日英中韓など多言語対応しており、外国人スタッフ向けに英語字幕を自動生成することも可能です。

動画の撮影品質が低くても文字起こしできますか? スマートフォンで撮影した動画でも、話者との距離が1〜2m以内で環境音が少なければ認識精度は80〜90%程度に達します。外付けマイクを使うと精度が上がります。

字幕を付けた動画はどこで共有するのが効率的ですか? YouTubeの限定公開、Google Drive、NotionなどにURLで共有する方法が手軽です。専用LMSを使わなくても十分運用できます。

#旅館#AI文字起こし#研修動画#字幕#スタッフ育成#業務改善

よくある質問

旅館の研修動画にAI字幕を付けるのにどれくらい費用がかかりますか?

無料プランで月3時間まで使えるツールもあり、月数本の研修動画であれば0円から始められます。有料プランは月額2,000〜5,000円程度が相場です。

日本語以外のスタッフにも使えますか?

WhisperやNottaなど主要ツールは日英中韓など多言語対応しており、外国人スタッフ向けに英語字幕を自動生成することも可能です。

動画の撮影品質が低くても文字起こしできますか?

スマートフォンで撮影した動画でも、話者との距離が1〜2m以内で環境音が少なければ認識精度は80〜90%程度に達します。外付けマイクを使うと精度が上がります。

字幕を付けた動画はどこで共有するのが効率的ですか?

YouTubeの限定公開、Google Drive、NotionなどにURLで共有する方法が手軽です。専用LMSを使わなくても十分運用できます。