研究arXiv (cs.AI)公開 2026-05-080 閲覧

Flow-OPD：フローマッチングモデルの政策内蒸留手法

原題: Flow-OPD: On-Policy Distillation for Flow Matching Models

業界: その他
用途: R&D
規模: 中堅企業

・テキスト画像生成のフローマッチングモデルにおいて、複数目的最適化時の報酬スパース性と勾配干渉による性能低下を解決。・大規模言語モデルで成功した政策内蒸留（OPD）をテキスト画像生成タスクに初適用し、競合メトリクス間の「シーソー効果」を軽減。・複数の評価指標を同時最適化する際の報酬ハッキング問題に対し、より安定した学習パラダイムを提供。

ゼロビズAX View — 日本企業ならどう活かすか

生成AI画像モデルを社内運用する企業向け。マルチタスク最適化下での性能低下を改善する学習方法論のため、直接導入というより既存フローマッチングモデルの再学習に応用可能。OSS化待ちの段階。クラウドGPU環境での追加学習費用は数十万～数百万円。精密な評価指標設計が運用の鍵。

Next step