MENU

日々の学びや活動報告を載せていく雑記サイト

画像生成AIの仕組みとは?

画像生成AIの仕組みとは?

この記事にはプロモーションが含まれています。

この記事では画像生成AIの仕組みについてまとめています。

目次

画像生成AIとは?

画像生成AIとは、ユーザーがテキストで入力した指示(プロンプト)に基づいて、画像を自動生成する技術のこと。

画像生成AIの仕組み

STEP
学習

大量の画像データ+それに関連するラベルや説明文(キャプション)をAIが学習します。猫のイラストなら「猫 イラスト」犬の写真なら「犬 写真」など、ラベルがつけられているデータを学習し、特徴を理解し学習データとして蓄積。

STEP
イメージテキストの入力

ユーザーのテキスト入力による指示(プロンプト)を行うと、AIはテキストを解析し、生成すべき画像の「イメージ」を構築

STEP
画像の生成

テキストに基づいた要素を学習データから抽出、画像を構築。学習した内容に応じてさまざまなパターンや構図を組み合わせ、独自の画像を生成

この技術はディープラーニング(深層学習)敵対的生成ネットワーク(GAN)といった人工知能の学習手法を用いて実現されています。

学習の詳しい技術についてはモデルによって設定がさまざまで、方法も複雑。
詳細を知りたい方は下記の記事などが参考になります。(外部サイトの記事になります)
(リンク先:株式会社電算システム 公式サイト)
深層学習(ディープラーニング)をわかりやすく解説!機械学習との違いや活用事例を紹介

どのような手法でも、精度を上げようとするほど膨大な学習データが必要になっていきます。
学習を重ね人工知能の精度が上がることによって、指示(プロンプト)への理解が深まりより高精度な画像を生成してくれるようになるからです。

その膨大なデータを集めるために、多くの画像生成AIはインターネット上の文字や画像を利用しています。
データを集めるための技術として有名なものがスクレイピングやクローリングです。

スクレイピングとクローリングとは?

クローリング

「クローラー」や「スパイダー」「ボット」というプログラムにインターネット上のWEBページを巡回させ、リンクを辿ってページ内の様々な情報を収集する技術。

スクレイピング

クローリングで収集した情報やサイトから、特定の情報(テキスト、画像、メタデータなど)を抽出し整理する技術。

AI学習におけるクローリングとスクレイピングのプロセス

STEP
クローリングでWEBの膨大な情報を取得、リスト化

クローラーはWEBを巡回、次々にリンクを辿ることで、新規ページや更新ページを発見しリスト化していきます。

STEP
スクレイピングでAI学習に必要な情報を抽出、学習しやすい形に整形

クローリングで見つけたページから、ページのHTML構造やタグを解析し、必要な情報のみを取り出しAI学習用にデータを整理、最適化します。

上記のプロセスを経て、AIはデータセットという学習に最適な教科書を手に入れ、訓練されます。
その結果、私たちの命令に則した画像やテキストイメージを生成できるよう精度が上がっていきます。

スクレイピングとクローリングの問題点

この技術は便利ですが、下記のような利用上の注意・問題点があります

サーバーへの負荷
  • 使用範囲によっては対象のWebサイトのサーバーに多大な負荷をかける可能性がある。
  • 短時間に大量のアクセスを行ったり、高頻度で繰り返しアクセスを行った場合、サーバーダウンを引き起こす可能性もある。
個人情報の不正収集や利用の危険
  • スクレイピングは主にプログラムによる自動処理で実行されるため、設定次第では意図せず個人情報を含むデータを収集してしまう可能性がある。
  • 悪意を持って収集が行われた場合、個人情報の流出につながる恐れがある。
著作権侵害
  • スクレイピングで取得した情報の権利は、あくまで情報の配信元や作成者にある。そのため、著作権の含まれる情報を無断利用、二次配布するなどした場合、著作権侵害となる可能性がある。
倫理的な問題

Webサイトの運営者の意図しない形で情報を収集すること自体、不正アクセス行為として問題視されることもある。

上記の懸念点から、利用規約に禁止や制限を明記しているサイトも多いです。

しかしクローリングとスクレイピングは、サイト側で拒否の設定をしない限り勝手にデータを収集して情報を根こそぎ持って行ってしまいます。個人で防ぐ方法はほとんどありません。

この拒否の設定も、定期的に更新をしたり様々な施策を組み合わせないと効果がなく、完全にクローリングやスクレイピングを防ぐことはできないのが現状です。

この技術を利用する場合は、サイトの規約などよく読んで違法な行為を行わないよう注意する必要があります。

「事前学習」「追加学習」について

画像生成AIの学習には「事前学習」「追加学習」という段階があります。

事前学習

事前学習は、AIモデルが「基本的な知識」を身につける段階です。学習用に整形したデータ=データセットを使って、AIが一般的なパターンや特徴を理解するように訓練を行うことを指します。

生成AIの事前学習ステップ(※専門知識の情報は簡略化しています)

STEP
大規模かつ広範なデータの読み込み

事前学習には一般的に、何百万〜何億もの画像データが利用されます。インターネット上にある様々な画像が対象になっていることも多いです。

STEP
モデルアーキテクチャの構築

AIが「効率よく学ぶための細かい数値や、データ処理の設計図」を作る作業を指します。
AI学習のために必要なプログラムの基盤を作る段階といってもいいかもしれません。
この部分の作りこみがAIの学習のしやすさや性能に大きく影響します。

STEP
基礎の形成

読み込んだ画像からデータ内のパターンを見つけ出し、特徴空間というものを形成します。画像生成AIならば「色」「形」「構造」「テクスチャ」など、共通する「視覚的特徴」を学び、画像を生成するための基礎能力を身につけます。
これにより、何も追加情報がなくても「猫の画像を生成する」というようなリクエストに応えられるようになります。

STEP
検証

学習をしながら、テストデータで定期的にモデルの性能をチェックします。
想定通りの学習結果を生成することができているかの他、学習の偏りや過学習(特定データに依存しすぎること)を防ぐために行います。

「事前学習」を終えたAIモデルは「基盤モデル」として活用されます。
例えるなら「一般教養を修めた大学生」のようなものです。膨大な量のデータから学習することで、画像、テキスト、音声など、様々な種類の情報に対する「一般的な理解」を獲得しています。

ただし、基盤モデルは万能ではありません。特定の分野に特化させるためには「追加の学習」が必要になります。それが次の学習段階である「追加学習」につながります。

追加学習

追加学習は、事前学習で得た基礎知識を基に、「特定の目的やスタイル」に適応させるために行う訓練のことを指します。

生成AIの追加学習ステップ

STEP
「事前学習」モデルの読み込み

追加学習は「事前学習」モデルなしに行うことはできません。まずは基盤となるAIモデルを用意する必要があります。これらは事前学習で学習した「特徴空間」を基盤に持っているため、追加学習ではその特徴を利用します。

STEP
目的に合ったデータの収集、学習用への整形

追加学習では目的に合わせたデータが重要になります。例えば、特定の絵柄やスタイルに特化させたい場合は、そのスタイルに関するデータを用意します。事前学習とは異なり、より限定的で専門的な内容が必要になります。ただし、「事前学習」モデルに追加データを理解するための基盤があるため、追加学習で覚えさせるデータは事前学習時よりも少なく済みます。

STEP
凍結する層、目標関数、調整パラメータ等の設定

追加の学習を効率よくさせるための微調整を行う段階です。
この段階の作業により、「事前学習」モデルで学習された基本的な特徴は維持したまま新しいデータに合わせたカスタマイズがしやすくなります。

絵柄のように、目の大きさや線の太さ、等身等が変化した画像にも適応できるのは、この「事前学習」モデルが学習してきた基盤の知識が適用されるためです。

STEP
学習・調整

追加学習用のデータを用いて学習を行います。学習を進めながら、追加学習用のテストデータで評価し、性能を確認します。
必要に応じて学習率やバッチサイズなど、細かなパラメータを調整し、想定通りの生成結果が出るよう検証を行っていきます。

LoRA(Low-Rank Adaptation)などの技術は、この追加学習を効率的に行うための方法です。多くの生成AIは追加学習によって個性を強め、それぞれのユーザー好みの結果を出力できるようカスタマイズされていきます。

「事前学習」「追加学習」の意義まとめ

事前学習の目的、利点
  • モデルに一般的なパターンや共通する特徴を学習させ、多様なタスクへの適応力を向上させる。
  • 大量のデータで学習しているため、モデルが幅広い知識を持つ「基盤モデル」として機能する。
追加学習の目的、利点
  • 事前学習済みモデルの知識を基に、特定の目的やスタイルに適応させる。
  • 少量のデータでも、事前学習の知識を活用して効率よく学習できる

このように、「事前学習」によって基盤のモデルが作成され、様々なタスクをこなせるポテンシャルを持った生成AIの基礎が誕生します。
そこから「追加学習」を行うことで、特定のタスクや目的に特化させるための調整が成されていきます。それにより高度で専門的なタスクをこなせるAIが出来上がっていきます。

この一連の流れは、「教育課程」を経た新社会人が「特定企業に入社」し、そこの業務に特化していく過程に似ているといえるかもしれませんね。

結論:仕組みを知っておくことで利用法や対策への理解が捗る

仕組みを知っていることで、これから生成AIを使いたい人も、生成AIからの学習から身を守りたい人も、自分が今後どうAIに向き合っていけばいいかという展望を考えやすくなると思います。

特に、AIの無断学習から身を守りたい人は相手の技術を知っていないと対策を立てられません。
効果があると言われていた方法を使っても、AIの進化は早くすぐに対策され効果がなくなるということもあります。
そういったとき、もともとの仕組みを知っておくことで新しい技術が出ても情報収集で混乱しにくくなります。

niichi

AIが引き起こす問題への対処は重要課題ですが、技術や生み出す成果による恩恵が多いことも確かです。
今後の発展や運用方法、問題に関する規制など注目要素がたくさんですので、引き続き情報は集めていけるようアンテナを立てておきたいな、と思いました。

AIについて考えている関連記事まとめ

この記事は複数の記事と内容がつながっています。

※筆者はAIの専門家ではありません。本記事で取り上げている内容は、主にWEBでの調査や筆者の個人的な見解に基づいたものです。できる限り正確な情報をお伝えするよう心がけておりますが、内容についての正確性を完全に保証することは難しいことをご理解ください。
※専門的な見地からの判断を提供するものではありませんので、あくまで参考程度としてお読みいただければと思います。
※また、AIを取り巻く環境の変化の速度は著しいため、記事の閲覧時期によってはすでに古い情報となっている部分もある可能性がありますこと、ご容赦ください。

画像生成AIの仕組みとは?

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!

PR

目次