動画から手順書を生成するAI処理を全面的に刷新し、新しい大規模モデル「VLLM」を導入しました。
これにより、AIが動画の「意味」を理解した手順書生成が可能となり、解析速度や対応できる動画の長さも大幅に向上しています。
①動画AI処理にVLLMを導入 — AIが動画の「意味」を理解できるように
これまでのAI処理での動き解析は、動画を 「区切る」 ことが中心でした。シーンの切り替わりは検出できても、その動画が何をしているのかを踏まえた処理はできませんでした。
新たに導入した VLLM(動画と言葉の両方を理解できる大規模AI) により、AIが映像の内容そのものを理解し、文脈に沿った手順書生成ができるようになっています。
●具体的に良くなったこと
- 動画の「意味」を理解できるように
従来: 動画を区切ることしかできなかった
現在: 何をしているシーンかを踏まえた手順分割が可能 - 動作からも字幕が作れるように
従来: 話している音声の文字起こしのみ
現在: 話していない動作シーンにも、動作内容を説明する字幕を自動生成 - 意味不明な文字起こしが激減
動画全体の文脈を踏まえて文字起こしするため、聞き取りミスによる支離滅裂な字幕が大幅に減りました - 設問・テキスト図形の自動挿入
動画から手順書を出力する際に、確認用の設問や画面内のテキスト図形(注釈)もAIが自動で挿入するようになりました
②解析速度の向上と、長時間動画への対応
処理基盤も全面刷新し、現場で使いやすい速度と容量を実現しました。
- 解析速度が大幅に向上
アップロード後の処理待ち時間が大きく短縮されています - 10分毎でのファイル分割が解消。1ファイル50分まで対応。
これまでは10分を超える動画はシステムでファイル分割されてしまっていましたが、1本の動画として最大50分までそのまま処理できるようになりました。長尺の研修動画や作業全工程を1本に収めた動画を、分割せずにそのまま手順書化できます。
すでに作成済みの動画手順書には影響しません。新しく動画をアップロードする際、または既存動画の 「AI再処理」 実行時から、新しいAIが適用されます。
今後ともDiveをよろしくお願いいたします◎