AIでコース動画に多言語字幕を追加する方法

AIでコース動画に多言語字幕を追加する方法

字幕を追加するというのは、かつてはトランスクライバー(1分$1〜3)と翻訳者(1単語$0.10〜0.20、言語ごと)に発注することを意味しました。10時間のコースを5言語に翻訳すると、4桁の請求書と2週間の待ちが発生します。

2026年、パイプラインは様変わりしました。AIが文字起こし、翻訳、タイミング調整を担い、人間はゼロから書くのではなくレビューに回ります。言語あたりのコストは50〜100倍下がります。技術的なコース内容なら、品質は受講者が気付かない水準まで来ています。

これがその実践プレイブックです。

なぜ多言語字幕に手間をかけるのか

売上に直結する理由が2つあります:

  1. アクセシビリティの拡張。 聴覚障害のある視聴者、騒音環境にいる視聴者、第二言語であなたのトピックを学ぶ視聴者——同じ言語の中だけでも、字幕は対象オーディエンスを広げます。
  2. 国際市場の獲得。 英語のみのコースは膨大な市場を放置しています。スペイン語+ドイツ語+フランス語+ポルトガル語+日本語の字幕を加えるだけで、レッスンを録り直すことなくグローバル対象オーディエンスがほぼ倍増します。

ハイチケットコース($500以上)であれば、海外売上が5〜10%乗るだけで、字幕パイプラインのコストは何倍にも回収できます。

パイプライン全体像

[ソース動画]
    │
    ▼
[ソース言語のVTTに文字起こし]    ← 音声STTモデル
    │
    ▼
[ソースVTTに人手レビュー]         ← 動画1時間あたり5〜10分
    │
    ▼
[各ターゲット言語へAI翻訳]        ← フロンティアLLM
    │
    ▼
[(任意)ネイティブレビュー]       ← プレミアム向け
    │
    ▼
[HLSプレイヤーに<track>として接続] ← WebVTTサイドカー

各ステップに品質ノブがあります。安価なコンテンツでは人手レビューを省略し、責任の重い教材ではネイティブレビューを足します。

ステップ1:ソース言語の文字起こし

現代の音声認識モデルは、ソース音声から直接タイミング付きVTTを生成します。2026年時点でカテゴリは成熟しており、フロンティア音声STTもオープンソースの大規模音声モデルも、明瞭な単一話者ナレーションでは95%以上の単語精度を達成します。

入力として与えるもの:

  • 可能な限り高ビットレートのソース音声。 文字起こしのためにダウンサンプルしないこと。元音声トラック付きのMP4でも問題ありません。
  • ソース言語のヒント。 自動検出も動きますが、言語を明示すると最初の発話バーストでのエラーが減ります。
  • 話者ヒント(任意)。 複数話者がいる場合はラベルを付与。一部モデルは話者分離を行います。

出力はWebVTTのタイムスタンプ+テキスト。明瞭なナレーションなら95%以上の単語精度が期待できますが、固有名詞、専門用語、ブランド名は手で直すことになります。

ステップ2:ソースVTTのクリーンアップ(省略禁止)

これが最も安価で、最もレバレッジの効くステップです。ソース言語VTTに5分の人手レビューを入れることで、翻訳版全体での50分のクリーンアップが防げます。

直すべきもの:

  • ブランド名(自社製品、連携サービス、フレームワーク名)。
  • モデルが音だけで幻覚した専門用語。
  • 文の区切り — AI生成の字幕キューが節の途中で切れていることがあります。読みやすさを優先して締め直し。
  • 必要なら話者ラベル。

クリーンにしたソースVTTを翻訳に投入します。「ゴミを入れたらゴミが出る」原則は、翻訳ではさらに強く効きます。

ステップ3:各ターゲット言語へAI翻訳

フロンティアLLMは、単一プロンプトで翻訳を処理できます:「このVTTを{ターゲット言語}に翻訳。タイムスタンプを保持、キュー番号を保持、< >タグを変更しない」。

実用的なヒント2点:

  • コンテキストウィンドウに収まるなら、ファイル全体を1プロンプトで翻訳。 キュー間の文脈で用語の一貫性が増します。
  • 用語集を渡す。 {"AVCaption": "AVCaption", "embed token": "埋め込みトークン"} のような短いリストでブランド名と専門用語の一貫性を保てます。

技術的なコース内容では、人間翻訳者との違いを多くの受講者が判別できない水準まで来ています。マーケティング文やユーモアにはレビュアーを起用してください。

ステップ4:WebVTTトラックとして接続

HLSでは、字幕トラックはマスタープレイリストから参照します:

#EXT-X-MEDIA:TYPE=SUBTITLES,GROUP-ID="subs",NAME="English",
  DEFAULT=YES,LANGUAGE="en",URI="subs/en.m3u8"

#EXT-X-MEDIA:TYPE=SUBTITLES,GROUP-ID="subs",NAME="日本語",
  DEFAULT=NO,LANGUAGE="ja",URI="subs/ja.m3u8"

subs/{lang}.m3u8 自体がWebVTTファイルを指す小さなプレイリストです。プレイヤーがキャプションメニューに表示します。

動画ホストがこの部分を抽象化している場合(AVCaptionのように)、VTTをアップロードすればプラットフォーム側でプレイリストを組んでくれます。

ステップ5:(任意)1言語だけ焼き込み

一部のプラットフォーム(TikTok、Instagram Reels、LinkedIn)はミュート自動再生のため、1言語だけ焼き込んだキャプションが完視聴率を押し上げます。コースプラットフォーム本体ではサイドカーVTTが常に優位——切り替え可能、差し替え可能、ストレージを膨張させません。

ソーシャル配信用に焼き込むなら、別ファイルを生成してください。同じ配信物に焼き込みとサイドカーを混在させないこと。

入れる価値のある品質チェック

  • 長さチェック。 各キューが時間枠内で読み切れるか。翻訳テキストは英語より20〜40%長くなりがちです(特にドイツ語、スペイン語)。締めるか分割。
  • 文字種チェック。 アラビア語、ヘブライ語などRTL言語は、プレイヤーで正しくレンダリングされるか確認。
  • 一貫性チェック。 ブランド名と主要用語がファイル全体で同一表記か。単純なgrepでドリフトを検出できます。
  • タイミングのずれ。 長尺動画では小さなずれが累積します。動画の25%、50%、75%地点でスポットチェック。

コストの正直な話

10分の動画を5言語に翻訳した場合の素のAPIコスト:

  • 文字起こし:約$0.05〜0.10
  • 翻訳(5言語):約$0.10〜0.30
  • 合計:$1未満

人手レビューを加えるとレビュアーの時給で増加します。時給$30のネイティブレビュアーが言語ごとに10分かければ追加$25程度。

動画プラットフォーム内蔵の字幕機能は、分単位または言語単位で課金することが多く、相場は1分・1言語あたり$0.10〜0.50です。AVCaption Enterpriseは多言語字幕を定額に含めています——大規模ライブラリで効きます。

AVCaptionでの扱い

AVCaption Studio(Enterprise)は制作側を端から端までカバーします:

  1. 動画をアップロード → Studioがソース言語を自動検出し、音声からドラフトのトランスクリプトを生成。
  2. Studioエディタ(ソース行+波形+フレームサムネイルを並列表示)で各キューを編集 — ブランド名修正、文の区切り整形。
  3. 追加言語トラック(翻訳済み .vtt)を追加 — 翻訳コストはEnterprise定額に内包。
  4. WebVTTトラックがHLSプレイリストに自動アタッチ。カスタム埋め込みプレイヤーがキャプションメニューに表示。

プレイヤー本体は全プラン(Freeを含む)で動画あたり無制限トラックに対応しており、埋め込みURLに ?subtitle2={lang} を渡すとバイリンガル(2言語)表示にも対応します——語学学習者や、第二言語でコンテンツをレビューするグローバルチームに有用です。

優先すべき言語

数言語しか選べない場合、英語ソースのコースで効きやすいスターターセット:

  1. スペイン語 — ラテンアメリカ+スペインの巨大市場。
  2. ポルトガル語(ブラジル) — 大きな市場で、英語のみのコースが不足。
  3. ドイツ語 — 購買力が高く、定価で買う傾向。
  4. フランス語 — フランス+カナダ+アフリカの一部。
  5. 日本語 — プレミアムなテック層、英語コースの浸透が低い。
  6. ベトナム語、インドネシア語、タイ語 — 急成長中のクリエイターエコノミー、競合少。

ローカルで検索ボリュームのない言語はスキップしてください。料理コンテンツをラテン語に翻訳する必要はありません。

まとめ

2026年のAI字幕は「実験段階」ではありません。グローバル展開を狙うコスト意識のあるクリエイターにとってデフォルトです。安価なパイプライン(音声STT → 翻訳 → VTT)を回し、5分の人手レビューを入れて出荷——マルチトラックの切り替えはプレイヤーがリアルタイムで処理します。

AVCaptionプレイヤーはFreeを含む全プランで動画あたり無制限の字幕トラックを保持し、語学学習者向けにバイリンガル(2言語同時)表示にも対応しています。ソース動画と1つのVTTトラックをアップロードし、埋め込みURLに ?subtitle=es&subtitle2=en を付けるとバイリンガルモードを確認できます。Studio(Enterprise)はソースファイルがない場合のトランスクリプト作成を担います。国際展開の詳細はオンラインコースデジタルプロダクトをどうぞ。

よくあるご質問

2026年のAI字幕の精度はどの程度ですか? +
明瞭な単一話者の英語ナレーションなら、現代の音声認識モデルで95%以上の単語精度が出ます。強い訛り、複数話者の重なり、低ビットレート音声、専門用語の多いドメインでは品質が落ちます。ソース言語のトランスクリプトには必ず人手で軽くレビューを入れてください。
AI翻訳は人間の翻訳者に匹敵しますか? +
事実ベースかつ技術的な、コース調のコンテンツであれば、受講者が違いに気付かない水準まで来ています。マーケティング文、ユーモア、文化に密着した表現にはネイティブのレビュアーを置くべきです。技術コンテンツに関しては、フロンティアLLMは中堅の人手翻訳と競合できる水準です。
字幕フォーマットは何を使うべきですか? +
WebVTT(.vtt)です。HLSネイティブのフォーマットで、現代のすべてのブラウザとプレイヤーで対応されており、編集も容易です。SRTはダウンロード用途には使えますがHLSネイティブではないため、結局は変換することになります。
字幕は動画に焼き込むべきですか、それとも別トラックで持つべきですか? +
別トラック(サイドカーVTT)です。視聴者が切り替えでき、言語を変更でき、1つの動画ファイルですべてのロケールに対応できます。焼き込みは言語ごとにストレージが倍増し、切り替えUXも壊れます。
AI字幕翻訳は動画あたりいくらかかりますか? +
API直接コスト(音声STT + フロンティアLLM翻訳)は、動画1分・対象言語1つあたり概ね$0.01〜0.05です。10分のレッスンを5言語に翻訳しても、生のAPIコストは$1未満です。これを内包するプラットフォーム(AVCaption Enterprise)では定額に含まれます。
字幕はSEOに影響しますか? +
動画ページがHTMLにトランスクリプトを露出していれば、はい——検索エンジンはテキストをインデックスします。`<track>`要素から参照されたWebVTTは必ずしもインデックスされません。安全策として、ソース言語のトランスクリプトをページ本体にも掲載するのがおすすめです。
← content.back_to_index