AIをAI生成データで学習
2024年09月09日 [色々なこと]
お疲れ様です。院長です。
9月9日の月曜日でございます。
9月9日で、救急の日。
もしくは、9月9日で、九九の日。
さらには、9月9日で、きゅうりのキューちゃんの日。
だそうですわら
では今日も元気にネタいきましょう。
なんでも、AIをAI生成データで学習させると、学習モデルが崩壊してしまうリスクが発生するんだとか…。
AIをAI生成コンテンツで学習させると その答えは「崩壊」なんだそうです。
その研究では、AIが生成したデータを利用して、AIモデルを訓練しました。
するとあれよあれよという間に学習モデルが崩壊したそうなんです。
この研究に携わったケンブリッジ大学のAI研究者ザッカー・シュマイロフ氏は、「事態は必ず、証明可能なほど、まずいことになります」と語っています。
シュマイロフ氏らは、事前に訓練された大規模言語モデル(LLM)を用意し、それをWikipediaの記事で構成されたHuggingFaceのデータセットで学習させました。
こうして学習したAIモデルにテキストを生成させ、これを先ほどの学習用データセットに組み込みます。
そのうえでさらに学習を続けさせました。
すると驚くべきことが起きたわけです。
このプロセスを9度も繰り返すと、AIモデルは意味不明な話をするようになったのだとか…。
たとえば、AIモデルに「サマセットの建物(buildings in Somerset, England)」について学習させ、これを語らせてみました。
このWikipediaの記事は、英国サマセットにある指定建築物の歴史と多様性について説明したのものでした。
ここに自身が生成した説明を組み込みつつ、9度学習を繰り返したAIモデルは、意味不明の言葉を語り出したそうなんです。
AIモデルが学習で利用できるのは、研究チームから与えられたデータのみです。
最初に与えられた人間製のデータは、質が良く、また多様性に富んでいます。
ところが、AIが生成するデータは多様性が劣化しており、語彙や表現などが抜け落ちているなど、エラーが混ざっています。
AIモデルにはこうしたエラーが学習を繰り返すほど蓄積されていき、やがて崩壊してしまうんだそうです。
AI研究者のジャサン・サドウスキー氏は2023年、この破壊的なプロセスを「ハプスブルクAI(Habsburg AI)」と名付けました。
ヨーロッパ史上に名を残すハプスブルク家は、近親婚を繰り返した結果、不妊などの遺伝疾患が蔓延し、やがて衰退しました。
これと同じように、AI生成コンテンツのみで学習したAIモデルは、"デジタルな近親婚”のような状態になるという意味らしいです。
どうも、人間が遺伝的多様性を必要とするように、AIモデルもまた高品質で多様なデータを必要とするようなんですねぇ。
この研究は、従来のAI学習法の重大な欠陥を浮き彫りにしています。
最近のインターネットは、AIがまとめたニュースやAI生成画像など、AIが作り出したコンテンツで溢れかえっています。
それなりに信頼されているメディア企業ですらも、AI生成コンテンツを普通に使っているくらいです。
これまでのAI開発では、主にオープンウェブやSNSから抽出されたデータでモデルの訓練を行ってきています。
ですがネットに溢れるAI生成コンテンツのほとんどは、わざわざAIのお手製ですなどと表示されていません。
そのためAI開発に必要なデータをこうしたソースから集める限り、そのAIには崩壊へといたるエラーが蓄積されている可能性が高いと言えるでしょう。
研究チームは、「LLMによって生成されたデータを他のデータと区別する必要」がある一方、「LLMによって生成されたコンテンツをどのように追跡できるかは不明」と述べています。
突破口があるとすれば、AIの訓練にできるだけ多くの人間製データを混ぜておくことで、その崩壊を多少なりとも先延ばしにできることです。
このことは人間が作り出すデータには、AI時代ならではの新しい価値があるだろうことを物語っています。
まぁ、ややこしい。
我々世代の人間には、もはや無関係な気もしますが、世の中全体の問題ととらえると、ややこしい話です。
ではまた〜。
京都 中京区 円町 弘泉堂鍼灸接骨院
9月9日の月曜日でございます。
9月9日で、救急の日。
もしくは、9月9日で、九九の日。
さらには、9月9日で、きゅうりのキューちゃんの日。
だそうですわら
では今日も元気にネタいきましょう。
なんでも、AIをAI生成データで学習させると、学習モデルが崩壊してしまうリスクが発生するんだとか…。
AIをAI生成コンテンツで学習させると その答えは「崩壊」なんだそうです。
その研究では、AIが生成したデータを利用して、AIモデルを訓練しました。
するとあれよあれよという間に学習モデルが崩壊したそうなんです。
この研究に携わったケンブリッジ大学のAI研究者ザッカー・シュマイロフ氏は、「事態は必ず、証明可能なほど、まずいことになります」と語っています。
シュマイロフ氏らは、事前に訓練された大規模言語モデル(LLM)を用意し、それをWikipediaの記事で構成されたHuggingFaceのデータセットで学習させました。
こうして学習したAIモデルにテキストを生成させ、これを先ほどの学習用データセットに組み込みます。
そのうえでさらに学習を続けさせました。
すると驚くべきことが起きたわけです。
このプロセスを9度も繰り返すと、AIモデルは意味不明な話をするようになったのだとか…。
たとえば、AIモデルに「サマセットの建物(buildings in Somerset, England)」について学習させ、これを語らせてみました。
このWikipediaの記事は、英国サマセットにある指定建築物の歴史と多様性について説明したのものでした。
ここに自身が生成した説明を組み込みつつ、9度学習を繰り返したAIモデルは、意味不明の言葉を語り出したそうなんです。
AIモデルが学習で利用できるのは、研究チームから与えられたデータのみです。
最初に与えられた人間製のデータは、質が良く、また多様性に富んでいます。
ところが、AIが生成するデータは多様性が劣化しており、語彙や表現などが抜け落ちているなど、エラーが混ざっています。
AIモデルにはこうしたエラーが学習を繰り返すほど蓄積されていき、やがて崩壊してしまうんだそうです。
AI研究者のジャサン・サドウスキー氏は2023年、この破壊的なプロセスを「ハプスブルクAI(Habsburg AI)」と名付けました。
ヨーロッパ史上に名を残すハプスブルク家は、近親婚を繰り返した結果、不妊などの遺伝疾患が蔓延し、やがて衰退しました。
これと同じように、AI生成コンテンツのみで学習したAIモデルは、"デジタルな近親婚”のような状態になるという意味らしいです。
どうも、人間が遺伝的多様性を必要とするように、AIモデルもまた高品質で多様なデータを必要とするようなんですねぇ。
この研究は、従来のAI学習法の重大な欠陥を浮き彫りにしています。
最近のインターネットは、AIがまとめたニュースやAI生成画像など、AIが作り出したコンテンツで溢れかえっています。
それなりに信頼されているメディア企業ですらも、AI生成コンテンツを普通に使っているくらいです。
これまでのAI開発では、主にオープンウェブやSNSから抽出されたデータでモデルの訓練を行ってきています。
ですがネットに溢れるAI生成コンテンツのほとんどは、わざわざAIのお手製ですなどと表示されていません。
そのためAI開発に必要なデータをこうしたソースから集める限り、そのAIには崩壊へといたるエラーが蓄積されている可能性が高いと言えるでしょう。
研究チームは、「LLMによって生成されたデータを他のデータと区別する必要」がある一方、「LLMによって生成されたコンテンツをどのように追跡できるかは不明」と述べています。
突破口があるとすれば、AIの訓練にできるだけ多くの人間製データを混ぜておくことで、その崩壊を多少なりとも先延ばしにできることです。
このことは人間が作り出すデータには、AI時代ならではの新しい価値があるだろうことを物語っています。
まぁ、ややこしい。
我々世代の人間には、もはや無関係な気もしますが、世の中全体の問題ととらえると、ややこしい話です。
ではまた〜。
京都 中京区 円町 弘泉堂鍼灸接骨院