コンテンツにスキップ

Media Creation Curriculum in the AI Era #3 — ストーリーボード起点のAI映像制作カリキュラム

Updated: 2026-05*

1. はじめに

本稿は、私の授業構想に関するClaude AIとの問答である。「Media Creation Curriculum in the AI Era」シリーズの第3稿として、ストーリーボード起点でAI映像制作を学習する大学講義カリキュラムの設計案を提示する。題材は次の2点である。

  • Kiyoshi Yamamoto による「デザインシート方式」(Seedance 2.0 を用いた15秒短編制作の事例)
  • Higgsfield Canvas に代表されるノードベース・ワークフロー

第1回では Andrew Price 氏の議論を起点に「映像演習・実習I・II」全体の方向性を整理し、第2回では180分×15回を ComfyCloud 単独で構成する場合のカリキュラム案を検討した。今回はこれらを踏まえつつ、従来の映画・アニメーション制作のディレクターズフローとの対応関係を学術的・業界的根拠を交えて分析し、180分×15回のカリキュラム案と、反転授業を取り入れた13回への圧縮案を提示する。想定読者は美大生・デザイン系学生で、プログラミング初心者を前提とする。

1.1 参考サイト

1.2 参考チュートリアル動画


2. 題材の整理:デザインシート方式とノードベース・キャンバス

両者は別の現象ではなく、同一の本質を異なる粒度で表現した実装である。前者は1ショットの一貫性問題、後者はパイプライン全体の再現性問題に対する解として位置づけられる。

2.1 デザインシート方式の要点

参考)https://note.com/kiyoshi_yamamoto/n/nea762402afbb

Yamamoto は2026年5月15日、15秒5ショット構成のショートフィルム「男と予知犬(仮)」を、4K画像2枚を参照入力として渡すだけで、Seedance 2.0(BytePlus)で一貫した人物・小道具・ロケーションを保ったまま生成した。仕様策定から完成まで約1時間、コストは画像生成込みで $4.08(約¥630)であったと記録されている。重要な要素は3点である。

  • プロダクションデザインシート:キャラクター三面図、小道具、セットデザイン、トーン指定を1枚の4K画像に集約する
  • ショットリスト:ショット番号/ショットサイズ/アングル/アクション/ビートを表形式の画像として渡す
  • 英語ラベル必須:Seedance は画像内の英語ラベルテキストを読んで各要素を照合するため、視覚的な記号化が前提となる

つまり「美術設定資料+絵コンテ」という従来のプリプロダクション成果物を、そのままAIへの参照入力として利用している。

※Yamamoto は既存ツール(Higgsfield CLI など)について「I2Vモードが厳密すぎる、15秒非対応、音声なし」という制約から自社CLI(fal-seedance)を Node.js で開発している。fal.ai 経由で Seedance 2.0 API を叩く構成である。

2.2 Higgsfield Canvas の要点

参考)https://higgsfield.ai/canvas-intro

Higgsfield Canvas は2026年5月初旬にリリースされた、プロンプト・参照画像・各種モデルの生成結果を「無限のノードベース・キャンバス」上で接続し、チームで共有・再実行できるワークフロー環境である。

i-scoop.eu の整理によれば、AI制作は線形ではなく、参照画像から始まり、スタイル試行、キャラクター生成、シーン生成、モーション調整、複数バリエーション生成というように分岐するため、キャンバス型アプローチで意思決定を可視化することが有効である、と位置づけられている。

技術的本質としては、ComfyUI が個人のローカル環境で実現していた「ノードグラフによるパイプライン記述」を、クラウド上の商用モデル群とコラボレーション機能で包んだプロダクトである。

2.3 両者の共通項

3点に集約できる。

  • 結果ではなく「設計図」を再利用可能な資産として残す
  • 一貫性(キャラクター・スタイル・トーン)を制御する仕組みを工程の上流に置く
  • 個別の生成ではなく「パイプライン全体」を成果物として扱う

3. 現状分析:従来の監督ワークフローとAI時代の対応関係

「上位レベルのフローは従来の監督業務と同様で、素材作成部分のみがAI化された」という仮説の妥当性を検証する。

3.1 従来の映像制作フロー

参考)arXiv 2504.08296 https://arxiv.org/html/2504.08296v1

学術的整理として、伝統的に映画制作は次の3フェーズで構成される(同論文の整理による)。

  • プリプロダクション:脚本、絵コンテ、キャラクターデザイン
  • プロダクション:演出、撮影など各部門の協働作業
  • ポストプロダクション:編集、特殊効果、サウンドデザイン、ミキシング

監督・ディレクターは全フェーズに横断的に関与するが、特にプリプロダクションでの意思決定(脚本、ショット設計、ルック開発)が制作物の方向性を決定する。

3.2 上位フローはほぼ同一である根拠

ユーザー仮説の妥当性を3つの観点から確認する。

根拠1:プロセス順序は不変、フェーズの中身が圧縮される

Frameo の整理によれば、AI映像制作ワークフローは従来の制作パイプラインと同じフェーズにまたがり、変わるのは順序ではなく失敗モードである、とされる。従来のフィルム制作では時間とコストはロジスティクス(クルー、ロケ、機材、調整)に蓄積されるが、AI主導の制作では意思決定の遅延、再生成、不整合に蓄積される、というのが Frameo の指摘である。

根拠2:監督の判断は残り、実行が圧縮される

Drawstory の previsualization 解説では、従来は数週間かかっていた工程がAIでは数時間で完了するが、創造的アウトプットの質は同等に保たれる、と述べられている。理由は「監督は依然としてあらゆる視覚的決定をコントロールしており、AIは制作作業を担っているから」である。

The Monthly Film Festival は Adobe のドキュメントを引用しつつ、AI生成ツールが従来のフィルムワークフローに最も適合するのは、監督・撮影監督・プロダクションデザイナー・編集者を「置き換える」ものとしてではなく、彼らの周囲を取り囲む「速度の層(speed layer)」としてである、と整理している。

根拠3:成果物の単位が「カット」から「インクリディエンツ+パイプライン」に変わる

Ability.ai の業務分析では、プロフェッショナルなワークフローはキャラクター参照シートや深度マップといった事前生成された「素材(ingredients)」を使って一貫性を制御し、AIの幻覚(hallucination)を最小化する、と記述されている。テキスト単体から生成するのではなく、キャラクター参照画像、ライティング一貫性のあるキーフレーム、ストーリーボード構図といった高品質な入力をAI映像生成器に供給する「ingredients-to-video」アプローチが採られている。

Yamamoto のデザインシートは、まさにこの ingredients をプロダクションデザイン文書として可視化したものである。

3.3 ただし「同一ではない」部分

完全に同じフローとすると不正確である。以下は新たに発生する作業であり、従来の監督業務には存在しなかった。

  • プロンプト設計とリトリーバル設計(参照画像の選定戦略)
  • モデル選択(Seedance/Veo/Kling/Wan など特性に応じた配分)
  • ノードグラフによるパイプライン構築・保守
  • 生成バリアンスの管理(同じ入力でも結果がぶれる前提での品質保証)

Frameo はこの点について、プロンプトは構造を置き換えるものではなく、構造を生成可能な命令に翻訳するものである、と整理している。プロンプトを構造の代用として使うと出力品質は予測不能に変動し、定義された脚本に対してプロンプトを実行すると結果は一貫し再現可能になる、というのが同社の主張である。

結論として、**「監督業務は変わらず、その下にAI専任ロール(プロンプトエンジニア/パイプラインビルダー)が新設された」**という理解が現状最も近い。Ability.ai は実際のチーム編成として「ライター、ディレクター、シネマトグラファー、アニメーター、エディター」の役割名を維持しつつ、各人の道具がAI化したと記述している。


4. ノードベース・ワークフロー教育の妥当性

参考)https://dl.acm.org/doi/10.1145/3757372.3771864

ノードベース(ComfyUI、Higgsfield Canvas、TouchDesigner 等)を教材として採用することの教育的意義は、SIGGRAPH Asia 2025 Educator’s Forum で次のように整理されている。

ComfyUI のノードベース・インターフェースは単なる技術ツール以上のものであり、創造プロセスを思考するための視覚的言語となる。学生は複雑な創造目標をモジュール化された再利用可能なコンポーネントに分解することを学び、芸術的思考と計算論的思考を同時に発達させる、というのが同フォーラムの主張である。

これは美大生・デザイン系学生にとって特に重要である。プログラミング言語を学習することなく、「システム思考」「再現性」「モジュール化」というソフトウェア工学的素養をビジュアルに獲得できるためである。


5. YouTubeチュートリアル群とのカバー範囲比較

Higgsfield Canvas のリリース直後から、操作チュートリアル動画がYouTube上に多数投稿されている。これらが大学カリキュラムで扱う水準を既に超えていないか、検証する。

5.1 動画群の典型的範囲

2026年5月初旬以降に量産されている解説動画は、構成・粒度がほぼ収斂している。典型的な目次は以下である。

  • Canvas 画面の見方とノードの基本操作(ドラッグ、Wire接続、ノード削除)
  • Soul ID/参照画像のドロップとキャラクター生成
  • text-to-image → image-to-video の最小ワークフロー
  • 複数モデル(Seedance、Veo、Kling、WAN 等)の切り替え
  • Fork 機能とテンプレート共有
  • 簡単な作例(ファッション、商品、ショートクリップ)の制作デモ

つまり操作チュートリアルとしての Canvas 入門である。

5.2 本カリキュラムとの対応関係

後述する本カリキュラムの Phase C(第8〜11回)が、これら動画群とほぼ同じ範囲をカバーしている。すなわち操作スキル習得の水準では、本カリキュラムは当該動画群と同等以上をすでにカバーしている。

ただしYouTubeチュートリアルの大半は、以下を扱わない。これらは本カリキュラムが独自にカバーしている領域である。

  • 従来映画制作フローとの構造的対応(Phase A)
  • 脚本・ショットリスト・デザインシートというプリプロダクションの規律(Phase B)
  • 「設計図の再利用」という思想的背景
  • 一貫性問題の理論的整理
  • 講評・反復・統合制作プロセス(Phase D)

5.3 結論

動画チュートリアルは「Canvas の使い方」を教えるが、「映像を作る人になるための訓練」は教えない。本カリキュラムは動画群の水準を Phase C という1フェーズに内包したうえで、その前後に独自の教育内容を配置する構造をとる。

この知見は、後述する圧縮案(13回構成・反転授業)の根拠となる。


6. 15回180分カリキュラムは妥当か

6.1 結論

12回でも成立する。ただし15回には合理性がある。さらに反転授業を導入すれば13回が現実解となる。

6.2 検討

180分×12回(=36時間)でも、以下の内容を最低限カバーすることは可能である。

  • 制作フロー基礎(1回)
  • プリプロダクション(脚本・絵コンテ)(2回)
  • デザインシート方式(2回)
  • ノードベース・ワークフロー基礎(2回)
  • 生成と編集(2回)
  • 制作演習(3回)

しかし「美大生+プログラミング初心者」という想定読者では、以下の事情で15回に拡張する合理性がある。

  • ノードベースUIの習熟自体に最低2回分のハンズオン時間が必要である
  • 一貫性制御(キャラクター・ライティング・カメラ)はトライ&エラーが多く、フィードバック回が不可欠である
  • 最終課題(15〜30秒の短編)にはプリ/プロダクション/ポスト各フェーズで反復回を確保する必要がある
  • 講評会(critique)を独立した回として設けないと、デザイン教育として完結しない

したがって本稿では15回で設計するが、第12節で反転授業による13回への圧縮案を併記する。


7. カリキュラム全体構成

7.1 4フェーズ構成

180分×15回を4フェーズに分割する。

  • Phase A:基礎と思想(第1〜3回)
  • Phase B:プリプロダクション(第4〜7回)
  • Phase C:プロダクション・パイプライン構築(第8〜11回)
  • Phase D:統合制作と発表(第12〜15回)

各フェーズの目的は次のとおりである。

  • Phase A:従来制作フローとAI制作フローの対応関係を理解し、ツール群を概観する
  • Phase B:脚本/ショットリスト/デザインシートという「設計図」の作成スキルを獲得する
  • Phase C:ノードベース・キャンバス上でパイプラインを構築し、一貫性を制御する技術を習得する
  • Phase D:個人またはチームで完結したショートフィルムを制作・発表する

7.2 各回の標準ブロック構成

各回は次の4ブロックを基本とする。

  • 講義:45分
  • デモ:45分
  • ハンズオン:75分
  • 講評:15分

8. Phase A:基礎と思想(第1〜3回)

8.1 第1回 ガイダンスと現状分析

本講義の位置づけ(第1回・第2回エッセイとの接続)を確認し、AI映像制作の現状を俯瞰する。

  • 講義:従来の映画・アニメーション制作の3フェーズと、各フェーズにおけるAIの介入領域
  • デモ:Yamamoto の15秒短編を視聴し、$4.08/約1時間という制作実例を分解する
  • ハンズオン:受講者全員のアカウント整備(Higgsfield、fal.ai、Nano Banana、各自の編集ソフト)
  • 講評:受講者の制作経験ヒアリングとレベル合わせ

8.2 第2回 映像制作フロー総論

従来フローを学術的に整理し、AIフローとの構造的対応を明示する。

  • 講義:arXiv 2504.08296 を要約し、3フェーズ各段階での AI 介入ポイントを地図化する
  • デモ:従来作品(短編アニメまたは実写)の制作ドキュメンタリーを30分視聴し、各工程を識別する
  • ハンズオン:各自が好きな映像作品1本を選び、フェーズ分解レポートを作成する
  • 講評:分解結果を共有し、用語を統一する

8.3 第3回 ツールランドスケープ

2026年時点のAI映像ツール群を分類し、それぞれの守備範囲を把握する。

  • 講義:以下の分類に従ってツールを整理する
    • text-to-image:Nano Banana 2、Flux、Seedream
    • text-to-video/image-to-video:Seedance 2.0、Veo、Kling、Wan
    • ノードキャンバス:Higgsfield Canvas、ComfyUI
    • 専用プリプロ:Drawstory、Shai、Boords
  • デモ:同一プロンプトを3モデルに投入して結果比較を行う
  • ハンズオン:各自で同一プロンプトの比較実験を行い、特性表を作成する
  • 講評:モデル選択基準を全体で共有する

9. Phase B:プリプロダクション(第4〜7回)

9.1 第4回 脚本と15秒構成

短尺映像のための脚本術と「ビート」設計を習得する。

  • 講義:3幕構成、起承転結、5ショット構成の分析(Yamamoto 例:設定・違和感/認識/異変/衝撃/真相)
  • デモ:1行アイデアから5ショット構成までを口頭で組み立てるプロセス実演
  • ハンズオン:各自で15秒短編の1行ログラインと5ショット構成を作成する
  • 講評:構成のフィードバック

9.2 第5回 ショットリストとビート設計

ショットサイズ・アングル・アクションを表形式で記述する技術を習得する。

  • 講義:MS/CU/WS/OTS、Eye-level/High/Low などの基本記号と、それぞれの感情効果
  • デモ:Yamamoto の5ショット表を分解し、なぜそのサイズとアングルが選ばれたかを逆解析する
  • ハンズオン:第4回の構成をショットリスト(表形式)に落とす
  • 講評:英語ラベル化までを完了する(後段のAI入力に必要なため)

9.3 第6回 プロダクションデザインシート I:キャラクター・小道具

4K1枚画像にキャラクター三面図と小道具を集約する技術を習得する。

  • 講義:プロダクションデザインの歴史的役割と、AI参照画像としての要件(解像度、英語ラベル、明確な分離)
  • デモ:Nano Banana 2 でキャラクター三面図を生成し、小道具とともに1枚に合成する全工程
  • ハンズオン:各自のキャラクター三面図+小道具シート(4K)を制作する
  • 講評:ラベル位置、解像度、視認性のチェック

9.4 第7回 プロダクションデザインシート II:セット・トーン

ロケーション3カットとカラーパレット・素材感指定を1枚に集約する。

  • 講義:トーン・アンド・マナー、ムードボード、ライティング設計
  • デモ:3つのロケーション(玄関・リビング・外)を一貫したライティングで生成する手順
  • ハンズオン:セットデザイン3カット+トーン指定欄を含む完成版デザインシートを仕上げる
  • 講評:第6回シートとの統合チェック

10. Phase C:プロダクション・パイプライン構築(第8〜11回)

10.1 第8回 Higgsfield Canvas 入門

ノードベース・キャンバスの基本操作とノード接続を理解する。

  • 講義:Node/Wire/Reference/Output という4要素のコンセプト
  • デモ:Canvas 上で text-to-image → image-to-video の最小ワークフローを構築する
  • ハンズオン:各自で最小ワークフローを再現する
  • 講評:ノード命名と整理ルールの確認

最小ワークフローの構成例は下記である。

  • Text Prompt Node
    • prompt:A woman walking in a Tokyo street at dusk
    • aspect ratio:16:9
  • Image Generation Node
    • model:Seedream 4.5
    • reference:none
  • Image-to-Video Node
    • model:Seedance 2.0 Fast
    • duration:5s
    • motion:subtle camera push-in

※プログラミング初心者を想定するため、本回は「ファイルとフォルダの感覚をノードに置き換える」というメタファーで導入する。

10.2 第9回 一貫性制御:Soul ID とデザインシート連携

キャラクター・スタイルの一貫性を確保する手法を習得する。

  • 講義:Higgsfield Canvas の Soul ID とデザインシート方式の対応関係。Drawstory の整理によれば、生成ビデオモデルは美しい結果を生み出せるがアイデンティティで失敗する。ショット間で顔が変わり、衣装の詳細がドリフトし、同じキャラクターが各シーンで微妙に異なって見える。キャンペーン作品ではこれが急速に問題となる、とされている。
  • デモ:Soul ID を作成し、複数シーンで同一キャラクターを生成する
  • ハンズオン:第6〜7回のデザインシートを Canvas に投入し、Soul ID と組み合わせて3カット生成する
  • 講評:一貫性の崩れポイントを全員で同定する

ノード構成例は下記である。

  • Soul ID Node
    • character name:protagonist_male_40s
    • reference images:3〜5枚(正面・横・背面)
  • Design Sheet Reference Node
    • image:production_design_sheet_4K.png
  • Image Generation Node
    • model:Seedream 4.5
    • reference:上記2ノードを Wire 接続
    • prompt:medium shot, entrance hall, eye-level, holding red leash

10.3 第10回 マルチショット生成とリファレンス・ツー・ビデオ

Seedance 2.0 等の reference-to-video モデルで複数ショットを一括生成する技術を習得する。

  • 講義:reference-to-video の入力仕様、ショットリスト画像の渡し方
  • デモ:fal.ai 経由で Seedance 2.0 に2枚の参照画像(デザインシート+ショットリスト)を渡して5ショット一括生成する全工程。Yamamoto のCLI例も併せて解説する
  • ハンズオン:各自のデザインシートで5ショット生成を試行する
  • 講評:生成結果のショット間一貫性を評価する

参考までに、Yamamoto が公開した fal-seedance CLI のコマンド形式は下記である。

fal-seedance r2v \
  --image design-sheet/precog_dog_design_sheet_4K.png \
  --image shotlist/shotlist_4K.png \
  --duration 15 \
  --fast \
  --download output/precog_dog_v1.mp4

※Yamamoto が記録した落とし穴は2点である。

  • エンドポイント名の fal-ai/ プレフィックスは不要である(bytedance/seedance-2.0/reference-to-video が正しい)
  • 複数の参照画像を渡す場合、--image 引数は繰り返し書く必要がある(スペース区切りでは動作しない)

10.4 第11回 パイプラインの保存と再利用

構築したワークフローを再利用可能な資産として保存・共有する技術を習得する。

  • 講義:Higgsfield Canvas の共有機能。Soul ID キャラクター、アップロードされた製品、ブランド参照、過去の生成物がすべてノードとして取り込める、という設計を活かしたアセット管理法
  • デモ:自分のワークフローを Fork し、別プロジェクトに転用する
  • ハンズオン:各自のワークフローを命名・整理し、公開可能な状態に仕上げる
  • 講評:ワークフロー命名規約の統一

11. Phase D:統合制作と発表(第12〜15回)

11.1 第12回 最終課題ブリーフィングとプリプロ完成

最終課題(15〜30秒の短編またはCM)の企画を確定し、デザインシートまで完成させる。

  • 講義:講評基準(コンセプト/一貫性/編集の3軸)の説明
  • デモ:講師による参考企画を1本デモンストレーション
  • ハンズオン:各自プリプロ全工程(脚本〜ショットリスト〜デザインシート)を仕上げる
  • 講評:個別フィードバックを全員に行う

11.2 第13回 生成実装

第12回で確定した企画を実際に生成し、初稿を完成させる。

  • 講義:(短時間)よくある失敗パターン(Yamamoto が記録した fal-ai/ プレフィックス問題、--image 引数反復問題のような落とし穴)
  • ハンズオン:終日生成作業。講師は巡回サポート
  • 講評:初稿レビュー、再生成方針の確定

11.3 第14回 ポストプロダクションと音声

編集ソフト(Premiere/DaVinci/CapCut)への取り込み、カラーグレーディング、音声付加を行う。

  • 講義:AI生成素材のポストプロダクションの注意点(フレームレート、解像度、音声の不一致)
  • デモ:1本のサンプルをゼロから編集する
  • ハンズオン:各自の作品を編集する
  • 講評:編集中間レビュー

11.4 第15回 最終発表と総括

完成作品を発表し、講評を通じて学習を統合する。

  • 講義:(短時間)AI映像制作の今後の展望
  • 発表:各自10〜15分(上映+制作プロセス解説)
  • 講評:相互講評と講師講評
  • 総括:本講義で獲得したスキルセットの確認

12. 圧縮案:反転授業を導入した13回構成

YouTubeチュートリアル群が操作習得を十分にカバーしている現状を踏まえると、Phase C の操作部分を反転授業(flipped classroom)化することで、全体を13回に圧縮できる。

12.1 操作習得の反転授業化

Phase C(第8〜11回)のうち、基本操作にあたる第8回と第11回を統合し、事前にYouTube動画を視聴させたうえで授業時間は応用と問題解決に充てる構成に切り替える。

  • 事前課題:指定YouTube動画(例:R7GegCn8SbU、TEYITeWXRJo)を視聴し、自分のアカウントで最小ワークフローを再現する
  • 授業時間:トラブルシューティング、応用課題、ワークフロー設計の議論

これにより Phase C を4回から3回に圧縮可能となる。

12.2 13回構成案

操作習得を反転授業化したうえで、以下に再編する。

  • Phase A:基礎と思想(第1〜2回)※第2回と第3回を統合
  • Phase B:プリプロダクション(第3〜6回)※4回維持
  • Phase C:パイプライン構築(第7〜9回)※4回→3回に圧縮
  • Phase D:統合制作と発表(第10〜13回)※4回維持

180分×13回=39時間で全体が成立する。最終発表回と講評回は必ず残す。

12.3 さらなる圧縮の選択肢

15回が確保できない場合の選択肢を整理する。

  • 12回案:第7回をデザインシートI&IIの統合、第10〜11回を1回に統合、第13〜14回を1回に統合する
  • 10回案:Phase A を1回に圧縮、Phase B を3回、Phase C を3回、Phase D を3回とする
  • 8回案:基礎演習を省き、Higgsfield Canvas に絞った「実装中心」コースに再設計する

ただし美大生対象であれば、講評回を削るとデザイン教育として成立しないため、Phase D 最後の発表回は必ず残すべきである。


13. まとめ

「上位レベルのフローは従来の監督ワークフローと同様で、素材作成部分がAI化された」という認識は、現状の業界・学術両方の整理と整合する。プリ/プロダクション/ポストの3フェーズ構造、監督による意思決定の優位性、設計図(脚本・ショットリスト・デザインシート)の重要性は、いずれもAI時代に強化される方向で継承されている。

Yamamoto のデザインシート方式は、従来のプロダクションデザイン文書をAI参照画像に転用したものであり、Higgsfield Canvas は ComfyUI 的なノードグラフをチーム向けに商品化したものである。両者は別物ではなく、「設計図の再利用」「パイプラインの可視化」という同じ問題意識の異なる実装である。

180分×15回のカリキュラムは、美大生・プログラミング初心者を対象とする場合に妥当であり、フィードバック回・反復回・講評回を確保する観点から合理性がある。ただし YouTube 上に十分なチュートリアルが存在する現状を踏まえれば、Phase C の操作習得を反転授業化した13回構成が実務的にはより合理的である。対象学生のレベルと講義時間の制約に応じて、本稿提示の選択肢から適切な構成を選択することが望まれる。