AI で生成可能なスキャン可能な画像 — 新しい ControlNet モデルのデモンストレーション

はじめに

WeChat の公式アカウントを長い間更新していませんでしたが、新しい作品を共有したいと思います： ControlNet for QR Code

どんな効果があるのか？どんな用途があるのか？以下の例を見てみましょう。

これは一見何の変哲もない、少し混沌としている Stable Diffusion で生成されたスタイライズされた画像です：

しかし、3つの位置決めポイントを追加すると、この画像はスキャン可能な QR コードになります：

QR コードを長押しして qrbtf.com にジャンプ

驚きですよね！以下は、このプロジェクトの起源、トレーニングプロセス、そしてより多くの生成結果について説明します……

起源

大学 2 年生の時、同級生と一緒にパラメトリック QR コードジェネレーター、qrbtf.com（美しい QR コードの作り方）を作りました。様々な理由で、今日まで更新を続けていません。創新工場の咏刚先生との対話の中で、突然、人間の目には完全に正常に見える画像の中に隠された情報をエンコードできないかという話になりました。当時の GAN の時代には、機械学習のエコシステムは今日ほど活発ではありませんでした。Gradio Web UI や Diffusers のような使いやすいフレームワークはおろか、環境構築だけでも挫折するほどで、このアイデアは棚上げされました。

Stable Diffusion が登場し、ControlNet が各業界を席巻するまで、長い試行錯誤を経て、私はこのプロジェクトを再開しました。拡散モデルを使って、画像のように見える QR コードを生成できないかと考えたのです。

最初の ControlNet の試み

中国伝統模様の LoRA トレーニング

AIGC All in One ドキュメント、継続的に更新中

HuggingFace JAX/Diffusers Sprint

トレーニング

ControlNet のトレーニングデータ構造は非常にシンプルで、入力画像（conditioning image）、出力画像（image）、そしてキャプション（caption）だけです。公式には非常に多くの事前トレーニング済みモデルが提供されており、バージョン 1.0 での Depth、HED、OpenPose や、バージョン 1.1 での非常に創造的な Shuffle、Tile、Instruct Pix2Pix などが含まれています。

ControlNet のトレーニングはデータ量と計算能力の両方に高い要求があります。論文によると、トレーニングデータ量は 8 万から 300 万まで様々で、トレーニング時間は最大 600 A100 GPU 時間に達する可能性があります。幸いにも著者は基本的なトレーニングスクリプトを提供し、HuggingFace も Diffusers での実装を行いました。

以前の JAX Sprint で、私たちは幸運にも Google TPU v4 を使用し、300 万枚の画像のトレーニングを非常に速く完了することができました。残念ながら、イベント終了後、私たちは研究室の A6000 / 4090 に戻り、10 万枚の画像のバージョンをトレーニングしました。学習率は非常に大きく、早期の「突然の収束」（Sudden Convergence）を目指しました。

GPU / TPU トレーニングパラメータ

グレースケール制御 ControlNet、トレーニングプロセスは aigc.ioclab.com/sd-showcase/brightness-controlnet を参照

光影制御 ControlNet、トレーニングプロセスは aigc.ioclab.com/sd-showcase/light_controlnet を参照

推論

テストモデルのトレーニング完了後、私たちは様々な Checkpoint + LoRA + QR Code ControlNet の組み合わせを試しました。以下のような様々な認識可能な QR コードを得ることができました。

中国伝統模様

LoRA トレーニングプロセス：aigc.ioclab.com/sd-showcase/chinese-ornament LoRA モデルダウンロード：civitai.com/models/29858/chinese-traditional-pattern

浮世絵スタイル

LoRA トレーニングプロセス：aigc.ioclab.com/sd-showcase/fuyue LoRA モデルダウンロード：civitai.com/models/25222/ukiyo-e-fuyue-style-background-mix

アニメとイラストスタイル

水墨スタイル（MoXin）

水彩スタイル

立体スタイル

抽象スタイル

PCB スタイル

おまけ：Photoshop リペイント

あとがき

学部卒業時、パンデミックが終息に向かい、生成 AI がこれほど急速に発展しているのを見て、学部時代をもう一度やり直したいと思わずにはいられませんでした。

今回の QR Code ControlNet は、Shichen Zhaohan Wang CPunisher の仲間たちとの協力なしには実現できませんでした。3 日間でデータセットの準備、トレーニング、推論テストを完了し、呂欣先生、孫国玉先生の研究室からの GPU リソースのサポートを受けました。また、Google と HuggingFace から寛大に提供された TPU サーバーにも心から感謝します。本当に素晴らしい経験でした。

モデルのリリースと技術文書については、WeChat 公式アカウントの今後の更新とドキュメントの更新（aigc.latentcat.com）にご注目ください。元の記事をクリックしてドキュメントにコメントを残していただければ幸いです！