Media Creation Curriculum in the AI Era #2 — ComfyUIベースのカリキュラム

Updated: 2026-05*

1. はじめに

本稿は、私の授業構想に関するClaude AIとの問答である。「AI時代のメディア制作カリキュラム」シリーズの第2回として、180分×15回の授業を全てComfyCloud（ComfyUI公式ホスティング版）のみで構成する場合のカリキュラム案を検討する。

第1回では、Andrew Price氏の議論を起点に「映像演習・実習I・II」全体の方向性を整理し、AI画像／動画生成・実写・3DCGを統合した30回構成の刷新案を提示した。その中でComfyCloudには前期第3回と後期第8回の任意深掘り枠が割り当てられている程度で、踏み込みが浅かった。今回は逆に「もし15回全てをComfyCloudに費やすとしたら」という設定で、ノードベース演習に振り切ったカリキュラムの輪郭を描く。

この設定を取る理由は、Runway型のツールとComfyUI型のツールでは学習曲線の性質が根本的に異なる点にある。Runwayに代表される統合型Webサービスは、基本UIといくつかのレシピを学べばあとは作品制作の反復で進められるため、180分×15回もあれば余裕がある。対してComfyUI／ComfyCloudは、処理プロセス自体をノードを組み替えてカスタマイズできるツールであり、「与えられたworkflowを動かす」段階から「自分流の表現を探す」段階に進むまでの距離が長い。15回という尺の中で何をどこまでやるかは、慎重に設計する必要がある。

1.1 参考サイト

参考）

1.2 本稿で扱う内容

ComfyCloudを単独で授業基盤に据える前提と妥当性
Runway型とComfyUI型の学習曲線の差異
180分×15回のカリキュラム案
評価設計と運用上の留意点

2. ComfyCloud単独構成の前提

15回をComfyCloud単独で組む設計の妥当性を、ツール特性・学習構造・運用条件の3面から整理する。

2.1 Runway型とComfyUI型の学習曲線の差

Runwayに代表される統合型Webサービスは、処理パイプラインがベンダー側で固定されており、学習者がアクセスできるのは入力（テキスト、リファレンス画像、シード）と限られた出力制御パラメータ（モーション強度、カメラ操作、長さ等）に限られる。レシピは概ねText-to-Video／Image-to-Video／Video-to-Video／Motion Brush／Camera Control／Lip Sync／In・Outpainting等の数で尽きる。UI習得に要する時間は実質1〜2回分で足り、残りの時間は「プロンプト設計の精度」「素材選定」「カットの組み立て」「演出意図と出力の往復」に充てられる。すなわち学生の認知資源は道具ではなく作品に向かう。

これに対しComfyUIは、Load Checkpoint・CLIP Text Encode・KSampler・VAE Decodeといった処理単位をノードとして配置し、Wireで接続することでworkflow全体を構築する。txt2imgの最小構成でも7ノードが必要であり、ControlNet・IPAdapter・LoRA・AnimateDiff・Wan2.x／HunyuanVideoといった制御系や動画生成系を組み合わせると、ノード数は数十から百を超える。生成プロセスの各段階に介入できるため、同じ素材から異なる表現を引き出す試行が成立する一方で、道具自体の構造を理解する時間が継続的に必要となる。

Runway型が「レシピを覚えて反復する」性格であるのに対し、ComfyUI型は「素材を観察して組み立て直す」性格である、と整理できる。両者は優劣の関係ではなく、認知資源の振り向け方が異なる関係にある。

2.2 「workflowを動かす」から「自分流の表現」までの5層

「与えられたworkflowを動かす」段階から「自分流の表現を探す」段階までの間には、概ね5つの学習層が積層している。シラバス設計では、この層構造を意識して各回の到達目標を設定する必要がある。

層1：ノード操作の機械的習熟。Wire接続、Load／Save、JSONの読み書き、Queue Promptの実行
層2：標準workflowの読解。txt2img・img2img・inpaintの各workflowで、どのノードが何をしているかを言語化できる状態
層3：拡散モデル内部要素の理解。Load Checkpoint・CLIP Text Encode・KSampler・VAE Decodeの役割と、sampler／scheduler／cfg／denoise／seedの効き方
層4：モデル生態系の理解。SD1.5／SDXL／FLUX等のベースモデル差、LoRA・ControlNet・IPAdapterの役割分担
層5：自作workflowへの再構成。以上を踏まえ、自分の制作意図に合わせてノードを差し替え・追加・分岐させる段階

workflow JSONをキャンバスにドロップしてプロンプトを書き換え、Queue Promptを押す行為は層1で達成可能であり、第1回の授業内で到達できる。しかし、それが層5まで進むには層2〜4を順に登る必要がある。「距離が長い」とは、ノード操作の習熟ではなく、この層構造を順に積み上げる時間を指している。

2.3 ComfyCloudが解決すること／しないこと

ComfyCloudが解決するのは導入コスト側である。ローカルGPUの準備、ドライバやPython環境の整備、カスタムノードのインストール手順など、層1の手前で学生がつまずく要因の多くが回避される。ブラウザを開けば全員が同じ状態から始まる、という運営上の利点は大きい。

一方、解決しないのは概念的学習コストである。ノードベースの思考、拡散モデルの内部構造、モデル選定の判断軸といった層2〜層4は、クラウド化しても圧縮されない。ComfyCloud採用により「導入回」を短縮できるが、中位層以降の学習時間は変わらない、と認識しておく必要がある。

2.4 ComfyCloudの現状の機能と運用条件

ComfyCloudは、オープンソースのノードベース画像／動画生成インターフェースであるComfyUIを、Comfy Org自身がホスティングする公式サービスである。ローカルにGPUを持たないユーザーでもブラウザからComfyUIのほぼ全機能を利用できる点が最大の特徴である。

2025年12月10日のアップデートにより、料金体系が統合クレジット制に移行した。月額サブスクリプションで一定量のクレジットが付与され、Cloud上のworkflow実行時間およびPartner Nodes（旧API Nodes、外部API経由でSeedreamやKlingなどのモデルを呼ぶノード群）の利用に消費される。クレジットが不足した場合は追加購入で補填する。

授業利用の観点で重要な性質は以下である。

学生側に高性能GPU環境を要求しない
環境構築のばらつきが原理的に発生しない（ブラウザで開けば全員同じ状態）
workflowおよび生成物はアカウント内でプライベートに保持される
workflow JSONはエクスポート可能で、卒業後にlocalのComfyUIにそのまま持ち出せる
ユーザーが訓練したLoRAをアップロードして使うことができる（Bring Your Own LoRA）
Partner Nodes経由で最新の商用モデル（Seedream、Kling、Veo等）にも触れられる

※ クレジット消費量・料金体系は流動的である。授業設計時には必ず公式の最新情報を確認する必要がある。

2.5 15回を単独で組む意義と限界

180分×15回＝合計2700分（45時間）という枠を全てComfyCloudに割く設計は、次の3点で意義がある。

第一に、ComfyUIは画像生成・動画生成・3D（生成・編集）・音声まで扱える汎用プラットフォームに進化しており、1つのツールで映像制作の主要工程の多くをカバーできる。授業内で複数ツールを行き来する切替コストが発生しない。

第二に、ノードベース操作の習得には反復が必要であり、15回連続で同一環境を扱うことで、ノードの命名規則・データ型・Wire接続のルールが自然に身についてくる。週ごとにツールを変える設計では到達できない深さに至ることができる。

第三に、後半に進むほど学生自身がworkflowを改造・自作する時間を確保でき、「自分流の表現」を探す制作期間として機能する。これはRunway中心の設計では成立しにくい。

一方、限界も明確である。実写撮影や編集工程（DaVinci Resolve等）、合成（After Effects等）、3DCG（Blender等）はComfyCloud単独ではカバーできない。本カリキュラムは「素材生成からカット単位の動画生成まで」をComfyCloudで完結させる構成であり、編集や尺の組み立ては別科目または学生の自主作業として位置づける前提で組む。

3. カリキュラム設計の方針

3.1 到達目標をどの層に置くか

2.2で示した5層構造を踏まえ、15回の到達目標をどの層に設定するかが設計上の最初の判断となる。素直に層5（自作workflowによる自分流の表現探究）に置くと、時間的にぎりぎりである。学生が毎週授業外でも反復することを前提として初めて成立する設計であり、授業内のみで触る運用にすると、最終回までに層3〜4にとどまる学生が一定数出ることは避けられない。

戦略的な選択肢としては以下が成立する。

高位設定：層5を最終目標とし、毎週の自習課題を必須化する。最終課題でworkflow JSONの提出を求める
中位設定：層4までを最終目標とし、「既存workflowを読み替えて改造できる」をゴールとする。時間にゆとりが生まれ、講評と表現研究に時間を回せる
妥協線：層5を建前の最終目標としつつ、最終課題で「既存workflowを参考にしてよいが3箇所以上は改変する」という現実的なゴール設定を採用する

※ 美大・デザイン系学生向けには中位設定の方が現実的な場合がある。表現の探究を「workflowを白紙から作ること」に紐づけすぎると、本来の表現研究の時間が奪われる。本稿のカリキュラム案では、後段で妥協線を採用している。

3.2 4フェーズ構成

15回を以下の4フェーズに分けて配置する。

フェーズA（第1〜4回）：基礎。UI操作とtxt2img・img2imgのworkflow構築
フェーズB（第5〜9回）：制御と表現。ControlNet・IPAdapter・LoRAによる構造／スタイル制御
フェーズC（第10〜12回）：動画生成。AnimateDiffおよびPartner Nodes経由の最新動画モデル
フェーズD（第13〜15回）：作品制作と講評。自作workflowによる短尺作品

各フェーズの最終回には小課題または中間講評を配置し、習得度を可視化する。第15回は最終講評として確保する。

3.3 「workflow消費」から「workflow作成」への移行

ComfyUIには既製のworkflow JSONが多数公開されており、ダウンロードしてキャンバスにドロップすればそのまま動かすことができる。これを最初から自作させると挫折を招きやすく、最後まで借り物で済ますと探究にならない。本カリキュラムでは、フェーズAで既製workflowを動かしながらノードの役割を学び、フェーズBで部分的な改造、フェーズC以降で全体の再構成、という段階を踏ませる。

具体的には、フェーズAでは公式サンプルとAICUやPERSCの教材workflowを土台にし、フェーズBから自分でノードを追加／削除させる。フェーズDの最終課題では、既存のworkflowを「参考にしてよいが、必ず3箇所以上は自分で改変すること」という条件を課す。

3.4 講義と演習の時間配分

ComfyUIは「触れば触るほどわかる」性格のツールであり、講義時間を増やしても理解は深まりにくい。180分の内訳は、講義・デモ30分／個人演習120分／共有・質疑30分を基本とする。新しいノード群を導入する回（第5回、第7回、第10回、第12回など）に限り、講義時間を60分まで延ばし、その分演習を90分に短縮する。

3.5 評価設計

評価は次の3点で行う。

中間課題（第9回時点）：worldbible 1枚＋同一キャラクター／世界観のシリーズ画像5〜8枚
最終課題（第15回時点）：30秒〜1分の短尺動画作品＋使用したworkflow JSON
平常点：各回の演習成果物の提出と、他者workflowに対するコメント

最終課題ではworkflow JSONの提出を必須とすることで、生成プロセス自体を評価対象に組み込む。完成動画のクオリティだけでなく「ノードをどう組んだか」を見る設計である。

4. 全15回のカリキュラム案

4.1 フェーズA：基礎（第1〜4回）

ねらいは層1〜層3の習得である。UI操作と標準workflowの読解を経て、拡散モデルの主要パラメータの効き方を体感する段階に到達することを目標とする。

第1回：ガイダンスとComfyCloud入門

ComfyUI／ComfyCloudの位置づけ、ノードベースの考え方、Runwayとの違いを講義で示した上で、UI操作の基本を演習する。

講義：30分。ComfyCloudの全体像、料金体系、Runway型との対比
演習：120分。アカウント開設、UI操作（pan／zoom、ノード追加、Wire接続、Queue Prompt実行）、デフォルトのtxt2img workflowを実行
共有：30分。生成結果の共有と質疑

到達目標：キャンバス操作とQueue Promptの実行ができ、生成された画像を保存できる。

第2回：txt2imgの7ノード構成

最小workflowを白紙から組み直すことで、各ノードの役割を体得する。

講義：30分。Load Checkpoint、CLIP Text Encode、Empty Latent Image、KSampler、VAE Decode、Save Imageの役割
演習：120分。第1回のworkflowを全削除し、7ノードを自力で配置・接続してtxt2imgを再現する。続いてKSamplerのパラメータを変えて出力差を観察する
- KSampler
  - seed：固定値で複数回回し、再現性を確認
  - steps：10／20／40で比較
  - cfg：3.0／7.0／15.0で比較
  - sampler_name：euler／dpmpp_2m／dpmpp_sde等で比較
共有：30分

到達目標：txt2imgの最小構成を白紙から組める。KSamplerの主要パラメータの効果を説明できる。

第3回：プロンプトとモデル選択

プロンプト設計とモデル選択がworkflow全体に与える影響を扱う。

講義：30分。Positive／Negativeの基本、トークン重み付け、SDXL／FLUX等のモデル別の推奨パラメータ
演習：120分。同一プロンプトを複数モデル（SDXLとFLUX系を最低1つずつ）で生成し比較する。Negativeの効果検証も行う
- ※ FLUX系を使う場合はKSamplerのcfgを1.0に固定し、別途FluxGuidanceノードで誘導強度を調整する
共有：30分

到達目標：意図したスタイルに近い画像を安定して生成できる。モデルごとの特性を言語化できる。

第4回：img2imgとinpaint、フェーズA小課題

既存画像を起点とする生成と、フェーズA総括としての小課題を行う。

講義：30分。VAE Encode／VAE Decodeの役割、denoiseパラメータの意味、inpaint workflowの構造
演習：120分。手持ち写真をimg2imgで別画風に変換／inpaintで部分修正／小課題「5分以内に動く自己紹介ビジュアルworkflow」を作成
- KSampler（img2img時）
  - denoise：0.4／0.6／0.8で比較
共有：30分。作成したworkflowと出力を全員で共有

到達目標：既存画像を起点にした生成ができる。自分の意図でworkflowを設計できる。

4.2 フェーズB：制御と表現（第5〜9回）

ねらいは層4の習得である。ControlNet・IPAdapter・LoRAという制御系ノード群の役割分担を理解し、複数を組み合わせて意図した出力に近づける段階に至ることを目標とする。

第5回：ControlNet（構造制御）①

プロンプト以外の手段で構図／姿勢／構造を制御する手法に踏み込む。

講義：60分。ControlNetの原理、preprocessor（pose／depth／canny／lineart等）の役割、強度とtimestepの制御
演習：90分。同一プロンプトに対し、posed人物画像からOpenPose抽出、風景写真からDepth抽出を行い、それぞれをControlNetに渡して生成する
- ControlNetApplyAdvanced
  - strength：0.5／0.8／1.0で比較
  - start_percent：0.0
  - end_percent：1.0
共有：30分

到達目標：構造情報を入力として与え、プロンプトのみでは到達できない構図制御ができる。

第6回：ControlNet ②（複数組み合わせ）

複数のControlNetを重ねて使う設計を扱う。

講義：30分。Multi-ControlNetの設計、preprocessor同士の干渉、weight配分の考え方
演習：120分。OpenPose＋Depth、Canny＋Lineart等の組み合わせを試し、それぞれの効果と限界を観察する
共有：30分

到達目標：複数の構造制約を組み合わせて意図した出力に近づけられる。

第7回：IPAdapter（スタイル／構図の参照）

参照画像を「もう一つのプロンプト」として扱う手法を導入する。

講義：60分。IPAdapterの原理、style transferとcomposition transferの違い、ControlNetとの併用
演習：90分。リファレンス画像を1枚指定し、自分のプロンプトと組み合わせて生成する。続いてControlNetと併用して構造＋スタイルの両方を制御する
- IPAdapterAdvanced
  - weight：0.5／0.8で比較
  - weight_type：style transfer／composition等を切り替えて比較
共有：30分

到達目標：参照画像を活用して、テキストだけでは指示しにくいスタイルを再現できる。

第8回：LoRAと独自データの活用

汎用モデルに対し、特定のスタイルやキャラクターを上乗せする手法を扱う。

講義：30分。LoRAの原理、複数LoRAのスタッキング、ComfyCloudのBring Your Own LoRA機能
演習：120分。公開LoRAを2〜3個試し、強度を変えて効果を比較する。（任意）自分で集めた数枚の画像から作ったLoRAをアップロードして試す
- LoraLoader
  - strength_model：0.6／0.8／1.0で比較
  - strength_clip：0.6／0.8／1.0で比較
共有：30分

到達目標：LoRAを目的に応じて選択・組み合わせられる。

第9回：キャラクター一貫性と中間課題

フェーズB総括として、ControlNet・IPAdapter・LoRAを統合し、同一キャラクター／同一世界観の複数カットを生成する。

講義：30分。一貫性確保の戦略（reference固定、LoRA固定、ポーズ違いのみ振る、など）
演習：120分。中間課題に着手。worldbible 1枚＋同一キャラの異なるポーズ／表情／構図のシリーズ画像5〜8枚を生成
共有：30分

到達目標：単発の画像ではなく、シリーズとして矛盾のない素材群を生成できる。

4.3 フェーズC：動画生成（第10〜12回）

ねらいは層4を動画領域へ拡張することである。静止画と動画の生成の違いを理解し、フレーム間の整合性を制御する手法に触れる。

第10回：AnimateDiff基礎

時間軸の制御に踏み込む。txt2videoとimage-to-videoの基本を扱う。

講義：60分。AnimateDiffの原理、motion module、context optionsの役割、フレーム数とfpsの関係
演習：90分。プロンプトから16〜32フレームの短い動画を生成する。続いて第9回のシリーズ画像のうち1枚を起点にimage-to-videoを行う
- ADE_AnimateDiffLoaderWithContext
  - model_name：v3またはAnimateLCMのmotion module
- ADE_AnimateDiffUniformContextOptions
  - context_length：16
共有：30分

到達目標：静止画と動画の生成の違いを理解し、短い動画を安定して生成できる。

第11回：動画生成の応用（pose-to-video、video-to-video）

実写素材や既存動画を起点にした動画生成に進む。

講義：30分。frame extraction、preprocessor（DWPose等）の動画版、ControlNet動画版の運用
演習：120分。短い実写動画を持ち込ませ（学生のスマホ撮影で可）、pose抽出を介して別キャラクターに変換する／同じ動画をvideo-to-videoで別画風に変換する
共有：30分

到達目標：実写素材の動きを尊重しながらAIで変換できる。

第12回：Partner Nodes経由の最新動画モデル

ComfyCloud固有の利点として、商用最新モデルへのアクセスを扱う。

講義：60分。Partner Nodesの仕組みと料金、Wan2.x／HunyuanVideo／Seedream／Kling／Veo等の特性比較
演習：90分。同一プロンプトで複数モデルを試し、画質・動きの自然さ・カメラ制御性の差を観察する
共有：30分

到達目標：プロジェクトの要件に応じてモデルを選択できる。Partner Nodesのクレジット消費の感覚を掴む。

4.4 フェーズD：作品制作と講評（第13〜15回）

ねらいは層5への到達である。フェーズA〜Cで習得した個別技能を統合し、自分の表現意図に合わせてworkflowを再構成する経験を積む。

第13回：最終課題プランニングとworkflow設計

30秒〜1分の短尺動画作品の企画と、そのためのworkflow設計を行う。

講義：30分。短尺作品の構成、生成カットの設計、編集を前提としない一カット〜数カット構成の考え方
演習：120分。企画書（A4 1枚）＋使用予定workflowの骨格設計を行う
共有：30分。企画の相互レビュー

到達目標：自分の表現意図とworkflow構成を対応づけて説明できる。

第14回：制作集中日

個別演習と質疑応答中心の制作日とする。

演習：150分。各自の制作。教員・TAは巡回して個別に助言
共有：30分。途中経過の共有と相互助言

到達目標：制作上の課題を自力または相互助言で解決できる。

第15回：最終講評

完成作品の上映と講評を行う。

上映と講評：150分。各作品の上映＋作者によるworkflow解説＋相互講評
総括：30分。フェーズA〜Dの振り返り、ローカル環境への移行や次のステップの案内

到達目標：自作workflowで生成した短尺作品を、制作プロセスとともに第三者に説明できる。

5. 運用上のリスクと留意点

ComfyCloud単独構成にはいくつかの構造的リスクがある。

到達目標の層（2.2の層1〜層5）を曖昧にしたまま進めると、最終課題の段階で学生が「他人のworkflowを改造しただけ」の作品にとどまり、評価基準と実態が乖離するリスクが高い。シラバスの段階で「どの層までを到達目標とするか」を明示しておく必要がある
クレジット制の課金は、学生人数×平均消費量で総コストが見えにくい。授業設計時に、各回ごとの想定クレジット消費量を試算し、大学側で一括契約するか個人負担かを事前に決める必要がある
Partner Nodes（外部API経由のノード）は提供モデルの追加・終了が頻繁である。授業で扱うモデルは「特定モデル名」ではなく「カテゴリ（高速I2V、長尺T2V、3D生成、等）」で組んでおくと改訂負担が小さい
ComfyCloudの利用規約・著作権ポリシーは流動的である。学生に最終課題を学外に公開させる場合は、その時点での規約を必ず確認する
ノードベースに馴染めない学生が一定数出ることは避けがたい。フェーズAで明確な脱落者対応（個別補習、TA増員、サンプルworkflowの完成版提供）を準備しておく
本カリキュラム単独では実写撮影・編集・3DCG・合成のスキルは身につかない。学生にはこの点を明示し、別科目または自主学習で補完する設計とすることを伝える
※ ComfyUIはノード定義の新仕様（V3スキーマ）への移行が進行中である（2026年4月時点）。授業で配布するworkflowは、毎年度開講前に最新版で動作確認を行う必要がある
※ 5〜10年スパンで考えるなら、ノードベース環境そのものの設計も変わりうる。授業骨格は「特定UI非依存」のレベル（ノードベースの原理、生成プロセスの分解、制約の与え方）に重心を置いておくと、UI改訂に対する耐性が高まる

6. まとめ

ComfyCloud単独で180分×15回を組む設計は、Runway中心の設計とは性格が大きく異なる。前者は「ノードを組み替えて自分流の表現を探す」演習を中心に据えられるのに対し、後者は「レシピを反復して作品を量産する」演習が中心になる。どちらが優れているという話ではなく、両者の性格を踏まえた上で授業の位置づけを決める必要がある。

本稿で示した4フェーズ構成（基礎／制御と表現／動画生成／作品制作と講評）は、ComfyUIの学習曲線に沿った段階設計である。とくに、フェーズAで既製workflowを動かしてノードの役割を体得し、フェーズBで部分改造、フェーズCで最新動画モデル、フェーズDで自作workflowによる作品化、という移行を意図的に設計している点が骨格である。最終課題でworkflow JSONの提出を評価対象に含めることで、完成物のクオリティだけでなく生成プロセス自体を評価する構造となる。

第1回で示した「映像演習・実習I・II」（30回・90時間）の中にこの15回を組み込むのであれば、後期（実習II）の一部または全部に充てる選択肢が現実的である。前期で実写・編集・基本的なAI生成を扱った後で、後期にComfyCloudで深掘りする構成は、Andrew Price氏の言う「判断（judgment）」の演習を成立させる素地として整合的である。あるいは独立した選択科目として15回完結で開講する選択肢も成立する。

Media Creation Curriculum in the AI Era #1 — Andrew Price Media Creation Curriculum in the AI Era #3 — ストーリーボード起点のAI映像制作カリキュラム