GoogleのAI研究チームであるGoogle AIが「diffusion model(拡散モデル)」という手法を改善する新たなアプローチを発表し、古い写真の復元や医療用画像の改善まで幅広い用途に期待が高まっています。
diffusion model(拡散モデル)
低解像度画像から高解像度画像を復元するには、変分オートエンコーダー(VAE)、自己回帰モデル、敵対的生成ネットワーク(GANs)などの生成モデルが使われています。
しかし、GANsには生成する画像の多くが複製になってしまうモード崩壊が生じる場合があるほか、自己回帰モデルには合成速度が遅いといった問題点があるなど、今までの生成モデルには数々の欠点がありました。
Google AIが2015年に発表した「拡散モデル」という生成モデルは、トレーニングにおける安定性と生成する画像および音声の品質が高いことから近年見直されており、Google AIは「Cascaded Diffusion Models(CDM)」および「Super-Resolution via Repeated Refinements(SR3)」という2つの新たな拡散モデルアプローチを用いることで、拡散モデルの画像合成品質を向上させることに成功しました。
「純粋なノイズ画像」になるまで破損させる?
Super-Resolution via Repeated Refinements(SR3)では、低解像度の画像にガウス雑音を徐々に追加していき、「純粋なノイズ画像」になるまで破損させるそうです。
その後、トレーニングしたニューラルネットワークで画像の破損プロセスを逆転させることでノイズを取り除いていき、当初の解像度を超える高解像度画像を生成するという仕組みとなっています。
まさに、逆転の発想とはこの事でしょうか。
Cascaded Diffusion Models(CDM)は、大規模な画像認識データセットのImageNetでトレーニングしたクラス条件付き(ラベル付き)の拡散モデルで、生成する画像によっては元画像からかけ離れたものになる可能性がありますが、CDMはラベル情報と共に生成モデルを複数の空間解像度で徐々にアップスケーリングすることで、品質の高い画像を生成できるとのことです。
映像の処理に使えるようになれば、もう、これはいらない?
モザイクが嫌いな方には朗報だと思います。Googleの活動に今後も期待したいですね。