「DALL-E」をもとにした無料ツール「Craiyon」に出力させた、「アフリカ人労働者」のAI生成画像。
Thomas Maxwell/Insider
- ツールの高度化に伴い、AI生成画像の人気が爆発している。
- しかしこの技術は、知的財産、偏見、デマをめぐる懸念をはらんでいる。
- 「Stable Diffusion」などのAIモデルが生成する「アフリカ人労働者」の画像は、有害なステレオタイプを反映している。
OpenAI(オープンAI)の「DALL-E(ダリ)」や、「Stable Diffusion(ステーブル・ディフュージョン)」といった、画像を生成するAIモデルがつくった「アフリカ人労働者」の画像には、「ヨーロッパ人労働者」という指示から生成された画像と比べて、明らかな偏見が見てとれる。
アフリカ人労働者の画像の多くは、「アフリカ人は極めて貧しい暮らしを送っている」という有害なステレオタイプを反映している。そうした画像では、ひどく痩せた顔の人たちが、生存を維持するための最低レベルの労働に使う粗雑な道具を手にしている。一方、ヨーロッパ人労働者の画像はそれよりも明るい雰囲気で、もっと裕福に見える幸せそうな人たちが、ワークスーツ一式を身につけ、ほほえみながら、別の幸せそうな人(たいていは白人)と並んで立っている。
ジェネレーティブAIの仕組み上、ツールを使うたびに違う画像が生成されるが、「アフリカ人労働者」という指示から得られる画像のうちかなりのものは、貧しくて洗練されていないというアフリカ人に対する先入観を強化する方向に歪められている。
Stable Diffusionに、「アフリカ人労働者」の画像を生成させた際のアウトプット。
Thomas Maxwell/Insider
ジェネレーティブAIは、まったく新しいコンテンツを生成できる人工知能であり、オープンAIの「ChatGPT」が公開されて以来、広く人気を博している。ChatGPTは人間が書いたかのような数段落分のテキストを生成できるツールだが、そのほかにも、Stable Diffusionのような画像生成用のツールもある。そうしたツールは、数十億とは言わないまでも、数億もの画像サンプルを分析することで、画像を生成できるようになる。要するに、サンプルをもとに、それらを模倣する方法を学んでいるわけだ。たとえば、十分な数の犬の画像を見れば、まったく新しい犬の画像を作成できるようになる。
だが、人間が作りだした画像を模倣できるということは、つまりは、既存の偏見のような、人間の抱える問題も身につけるということだ。コンピュータープログラムは、学習するデータ、そして、それを生み出した人間の判断に影響される。そうしたAIプログラムは、ウェブ上にすでに存在する画像をもとにして学習をおこなうため、世間一般の人たちが、典型的な「アフリカ人労働者」として考える内容を反映することになる。
Stable Diffusionによる「ヨーロッパ人労働者」のアウトプット。
Thomas Maxwell/Insider
Stable Diffusionを開発したStability AI(スタビリティAI)と、「DALL-E」を開発したOpenAIにコメントを求めたが、返答は得られていない。
こうした状況に批判的な人たちは、ソーシャルメディア・プラットフォームがスタートしたときと同じように、テック業界が「素早く動き、破壊せよ」の精神でジェネレーティブAIになだれこんでいると警告している。つまり、まずは技術を世に出し、そのあとで影響に対処するという姿勢のことだ。対する支持者の方は、技術を改良するためにはオープンな状態でテストする必要があると指摘し、生産性向上などのAIのメリットは、つきつめればマイナス面を上回ると主張している。
2022年には、AIアバターアプリ「Lensa(レンサ)」に厳しい目が向けられた。このアプリは、男性のアバターについては、宇宙飛行士といった、子どもにも安心して見せられるキャラクターとして描いたが、女性のアバターに関しては、著しく性的なものを生成していた。
Stable Diffusionの学習には、「LAION-5B」が用いられている。これは、ウェブからスクレイピングした画像からなる大規模なオープンソースのデータセットだ。Stable Diffusionの学習に用いられる画像は誰でも見られるものなので、このツールがなぜ「アフリカ人労働者」に特定の見た目を与えたのかを追跡することができる。単純に同じ言葉をGoogleで検索するだけでも、検索結果として同様の画像が返ってくる。
BingのAI画像生成機能で、「アフリカ人労働者」の画像を作成させた結果。
Thomas Maxwell/Insider
Insiderが取材した研究者は(この研究者は、メディア取材に応じる許可を雇用主から得ていないことを理由に匿名を希望)、モデル開発者は問題のあるステレオタイプを強化しないような、質の高い学習データを集めるべきだと話した。だが、モデルの学習に必要とされる規模のデータを手作業で集めるとなると、法外なコストがかかる。ウェブや既存のトレーニングセットから大量のデータをスクレイピングするほうが、はるかに効率的だ。
ハギング・フェイス(Hugging Face)の研究者で、人工知能分野の博士号を持つサーシャ・ルチオーニ(Sasha Luccioni)はInsiderに対し、使われ方次第では、AIツールは大量の偏見をアウトプットするだろうと述べている。
「アーティストのためのAI支援ツールの場合、アーティストとAIモデルとのあいだで、人間が介在する多くのやりとりが行われるため、害をコントロールして抑制できる」
一方、プロンプトにもとづいてストック画像を生成するモデルには、安全のためのメカニズムを搭載するか、あるいは、ステレオタイプを再生産する可能性があることをユーザーに知らせる注意書きを含めるべきだという。
ルチオーニによれば、ディズニーは最近、ストリーミングサービス「Disney+(ディズニープラス)」で提供している、『アラジン』などの古い映画に注意書きを加え、「文化的なステレオタイプが含まれる可能性があるが、同社の見解を反映するものではない」と明示しているという。DALL-EやStable Diffusionのような、テキストから画像を生成するモデルについても、同様の仕組みを採り入れるべきだとルチオーニは考えている。
一部のモデル開発者は、特定のアウトプットを生成しないよう、製品を「操縦」しようと試みている。たとえばテキスト生成モデルなら、医師を「彼」と表現するのではなく、もっとジェンダーニュートラルな単語を使うようにする。画像生成モデルでも、もっと学習させれば、有害なアウトプットを防ぐ効果は出るはずだ。
スタビリティAIは画像生成にあたって、データセット内の画像を説明文と一致させる方法を学習する、CLIP(Contrastive Language Image Pretraining:対照的言語画像事前トレーニング)と呼ばれるシステムを使っているが、そのCLIPに、ジェンダーや人種に関する偏見が含まれていることがわかっている。たとえば、女性は性的コンテンツに関連づけられるのに対し、男性はキャリア関連のコンテンツと結びつけられる。
BingのAI画像生成機能で「ヨーロッパ人労働者」の画像を作成させた結果。
Thomas Maxwell/Insider
人工知能の分野では、偏見は以前から問題になっている。たとえば、法執行当局が容疑者の身元確認に顔認識技術を使用するようになってから、黒人が誤認逮捕されるケースが多発している。顔認識ツールでは、白人と比べて有色人種のほうが別人と誤認される確率が非常に高いことがわかっている。
プロパブリカ(ProPublica)が2016年におこなった調査では、アメリカの一部の裁判所判事が、再犯の可能性をめぐるアルゴリズムの推定をもとにして、保釈を判断していることがわかった。アルゴリズムの計算では、その犯罪者の住む郵便番号地区における犯罪率も加味されていた。
特に司法や医療などのリスクの高い場面に関しては、AIモデルが人々の命と暮らしに直接的な影響をおよぼす可能性があることから、「AIモデルを使用してはならない領域について、確固たるラインを明確に引くべきだ」とルチオーニは述べている。
一方、Stable DiffusionやDALL-E、ChatGPT、Googleの「Bard(バード)」、「Character.ai」には、著作権をめぐる懸念という点でも厳しい目が向けられている。ゲッティイメージズ(Getty Images)は2023年2月、Stable Diffusionを開発したスタビリティAIを提訴。ゲッティイメージズが所有する膨大な数の画像を、スタビリティAIがAIモデルの学習に許可なく使用したと主張している。