未来予想図超会議 (尾原和啓さん×けんすう) NFTからお絵かきAIまで(前編)

こんにちは!

今日は、先日に開催した、IT評論家の尾原和啓さんとの対談の書き起こしです!

割と最初は小難しい技術の話がありますが、僕もよくわかっていないので、わからなくても読み進んでいただければと思います!


けんすう氏(以下、けんすう):こんにちは!(今日は)楽しくお話しするので、みなさんの参考になればと思います。本日のテーマは「未来予想図超会議」となっています。

尾原和啓氏(以下、尾原):海より広く、深いテーマだね。

けんすう:(笑)。

尾原:アル開発室のメンバーの方って、優秀ですよね。

けんすう:そうですか?

尾原:僕とけんすうさんの今やっていることとか著作を調べて、議題・テーマをたくさんあげてくださったりしてくれたんです。

けんすう:「尾原さんから優秀だと思われたら絶対に得なので、そういうのを絶対にやったほうがいい」という話をしました。

尾原:ひどい言い方をするな(笑)。

けんすう:(笑)。「ちゃんとそういうのを見てくれる人のところで、ちゃんと評価してもらったほうがいいよね」という。

なぜお絵かきAIは高速進化を遂げているのか?

けんすう:というわけで、今日は、web3とかNFTとかお絵かきAIとか、ここ最近、目まぐるしく変わっている最先端のテクノロジーの話がよいかなと思っています。

尾原さん、そのへんで一番すごいと思っているものってありますか?

尾原:すごいポワっとした質問だな(笑)。

そういう意味でいうと、そもそもお絵かきAIを中心とした生成系AIって、ベースとしてGPU(Graphics Processing Unitの略 / 画像処理装置を)がものすごく進化している話があって。

どちらかというと最近は、ハードウエア系をもう一度深掘りしています。

けんすう:それはGPUの進化によって、お絵かきAIの進化が連動しているような話なんですか?

尾原:そうです。そもそもお絵かきAIを含めたAIって、ディープラーニングをはじめとしたAIの作り方の技術革命から始まっていて。

論理自体は、実は1980年代くらいからある、バックプロバゲーションというニューラルネットワークの作り方です。実は、僕が大学で研究していたあたりなんですよ。

バックプロバゲーション・・・誤差逆伝播法のこと。関数の偏微分を効率的に計算する手法。ニューラルネットワークの学習を効率よくするために使われる。

ニューラルネットワーク・・・人間の脳神経系のニューロンを数理モデル化したものの組み合わせもののこと。脳機能の特性のいくつかをコンピュータ上で表現するために作られた数学モデル。

けんすう:へー、そうなんですね(全くわかっていない)。

尾原:そうなんですよ。それがコンピューティングパワーが上がって。特にGPUって、グラフィックプロフェッサーユニットなので、画像処理、お絵かき用に特化したプロフェッサーなんですね。

お絵かきって、A地点からB地点まで行く線を書くのを、めちゃくちゃ高速でやる話だから、ベクトル演算だけに特化したプロセッサーなんです。

この行列やベクトル演算と、ニューラルネットワークが激しく相性がよくて。もともとは、「こんな複雑な計算できないよ」みたいなかたちで置かれていた、ニューラルネットワーク的な計算が復活したのが12年くらい前で。そこから劇的なAIの変化が始まっていった感じなんですけど。

けんすう:それって12年前から線形にどんどん進化していったのか、それとも、ここ1~2年で劇的に何かが進化したのかでいうと、どっちの感じなんですか?

尾原:(それは)2種類あって。ハードウエア的には、いわゆる「ムーアの法則」が、ここ5年くらいで、そろそろ限界が来るんじゃないかと言われています。

ムーアの法則・・・インテル共同創業者のゴードン・ムーア氏が経験則から、「半導体回路の集積密度は1年半~2年で2倍となる」といったもののこと。要は、半導体技術の進歩めっちゃすごいよね、というやつ。

つまり、「『1年半から2年かけて、半導体の集積度が倍になります。それによって高速化が倍になります』というのが、そろそろ限界が来るんじゃないの?」と言われていたところ、半導体の作り方を3Dで立体的に積層するやり方が、ブレークスルーがいくつか見つかって。

今、主流がだいたい7ナノメーターなんですけど、IBMさんとかがついに2ナノメーターまで開発が進んだり......というのが1個あったんですけど。どちらかというと、ここ3年くらいの生成系のAIに関していえば、アルゴリズム的なブレークスルーのほうが大きいですね。

けんすう:なるほど(全くわかっていない)。

尾原:こんなマニアックな話をしてもいいの?(笑)。

けんすう:ははは(笑)。僕もぜんぜんついていけないですけど。そもそもムーアの法則で「そろそろ限界かもね」と言われて、ブレークスルーがあって、みたいなイメージがあるんですけど。

ざっくりいうと、いまだにそれが続いているといってもいいので、ずっと進化している。だけどアルゴリズムのほうで、お絵かきAIとかをみんなが見て、「めちゃくちゃすごいものができる」というのは、そのへんが原因で一気に花開いたような感じで合っていますか?

尾原:まあ、合っています。

けんすう:なるほど。ディープラーニングというか、機械学習の活用法として、一時期、「AIが作る小説」とか「AIによる音楽」とかが話題になったことがあったのですが、最近、急にイラストという分野において、「めっちゃすごいのが出てきた」とみんな感じていると思うんです。

それって僕らがたまたまこの瞬間に気づいただけなのか、本当に技術的にすごいのがここ数ヶ月で出たかでいうと、どっちなんですかね?

尾原:それでいうと、圧倒的に技術的なブレークスルーがいくつかあったんです。

当然けんすうも、最近読んでいるのは半分くらい技術論文じゃないですか。

けんすう:そう思っていただいても大丈夫です。読んでないですけど(笑)。

尾原:そうすると、2017年の『Attention is all you need』は当然のように読んでいますよね(笑)。

けんすう:お、おお(笑)。Attention is……?

尾原:『Attention is all you need』という論文が2017年に出たんです。

一言でいうと、知識とか何かのつながりの中で、「あ、これが重要なんだな」という塊を見つける「Transformer」というアルゴリズムが開発されて。

例えば「DeepL」がそうなんですけど、「DeepL」って論文とか専門書の、しかも長めの本のほうが、すごくいい感じで翻訳してくれるんですよ。

けんすう:おー、なるほど?(全くわかっていない)

尾原:いわゆる「attention」と呼ばれる、この本の中の骨格となるような構文構造や、骨格となるようなキーワードのつながりの構造は何かを見出すことが、わりとできるようになったんですよね。

けんすう:ほー、なるほど。

尾原:つまり「DeepL」って、実は本を1冊訳すときに、本用のattentionのモデルを作っているのですよ。だから「SFとして特殊な同じような単語もこういう使い方するよね」とか、「このキーワードが重要だから、ここの骨子はブレないようにしたほうがいいよね」みたいなことがわかるようになったんですよね。

けんすう:めちゃくちゃざっくりいうと、論文とか文章の中で、「このへん大事だよね」というのを機械が見つけて、それをまとめると要約ができるよ、みたいなことですね。

尾原:そういうことです。さすが読んでいるから早いね。

けんすう:はい。今、「Attention is all you need 解説」で検索して、出てきたサイトを読みました。

尾原:早いなあ(笑)。

けんすう:絵でいうと、要は機械から見ると犬の絵があった時に、今までは「この毛1本とこの顔、どっちが重要か」はよくわからなかったけど、なんとなく「顔とか体のほうが重要だよねと。毛1本とかは、別にそんなに重要じゃないよね」みたいなのが判別できるようになったということですか?

尾原:そういうことです。

けんすう:あーなるほど。

尾原:そうすることによって、圧倒的に学習が早くなるわけですよね。

けんすう:重要なところだけを見ればいいからですね。

尾原:そうそう。

結局AIというのは、「入力したものが何を意図しているんだっけ?」という、情報量を抽象化することによって濃くする「エンコーディング」と、「アボカドの椅子に乗っかっているコーギー犬を描いて」みたいに、抽象的で情報量が少ないものから絵を描く「デコーディング」の2つに分かれているわけですよ。

このattentionの発明によって、エンコーディングが圧倒的に間違わなくなったんですよね。

けんすう:あー、なるほど。要は「人が考えるアボカドって、見た目のこういうところだよね」みたいなのが機械でもざっくりと出せるので、ミスらないということですか?

尾原:そうです。それによって、文章に合った翻訳ができるようになったというのが第一段階ですね。なんだけど、第二段階があって。

お絵かきAIがなんでこんなにすごいかというと、エンコーディングすることによって、学習するデータが世の中に山のように増えたという話があるわけですよ。

つまり、Instagramにしてもブログにしても、「文章と絵の組み合わせ」という情報が世の中に満ち溢れているじゃん。そうすると、絵のそばにある文章からアテンションモデルで読み取ると、「絵に描かれているものは何か?」というキーワードはかなり正確に特定できるわけですよね。

けんすう:ああ、なるほど。

尾原:さらに絵もアテンションモデルでやると、この絵の中にはコーギー犬が含まれているのかとか、アボカドが含まれているのかとか、椅子が含まれているのかを、高確率で切り抜くことができるわけですよ。

けんすう:つまり、「男の人が椅子に座っている」という文章だったら、男の人と椅子とみたいなのがわかるし、「男の人が椅子に座ってコーヒーを飲んでいる」だと、コーヒーがアテンションとして重要だよね、というのがある。だから、「コーヒー飲んでいる男の人を書いて」というと、わりとそれっぽいのが出てくると(いうことですね)。

尾原:絵を描く前に、絵を描くための学習データが必要じゃないですか。学習データをやるためには、データにラベルをつけないといけないわけですよ。

そうすると、大量にある図の中から「コーヒーを飲んでいる」というものを抽出してきたり、「おじさん」というものを抽出してきたりをやっていかないと、学習できないわけですよね。

だからtransformerモデルのattentionの発明によって、世の中にある有象無象のデータの中から、ぴったりな学習をするための抽象化がめちゃくちゃできるようになったわけですね。

けんすう:うんうん。

尾原:という発明があって、圧倒的に早くなったわけです。

けんすう:12年前には、ネット上にこんなに写真がなかったという話ですよね。

尾原:そうです。だから日本のAIとかを使っちゃうと、宮崎駿っぽい絵が描けちゃうとか、「なんでこんなにロリロリしたすばらしい女性がたくさん描けるんだろう?」とか。そういうのは、日本の英知に従った美しさがインターネットの中で広がったからなんだよね。

実は、お絵かきAIの前には「憧れの民主化」が多いわけです。結局Instagramやpixivによって、みんなが憧れるものやみんなが美しいというものを、タグとか説明つきでアップする現象が、この15年間で生まれたわけじゃないですか。

けんすう:なるほど、なるほど。

尾原:これによって、美しいもののデータが、ものすごいラベルつきで世の中にたくさん増えたんですよ。

これと、さっきのtransformerモデルのattentionの把握が恐ろしく相性がよくて、僕たちは美しさを再構成することができるようになったという話ですよね。

こんな話をしてて、楽しいのか?(笑)。

けんすう:かなり技術的な話からいっちゃってますけど、このあとにきっと緩やかな話もできますよね。

pixivは1億枚くらい投稿されているので、やはりそのくらいあると、だいぶインパクトがありますよね。

尾原:しかもpixivだと、解説もあればタグもあればコメントもある。もし学習しようと思えば、「著者と絵の関係」という構造化もあれば、「この著者を好きな人はこの著者も好き」という構造化もある。今はそれを学習に使っていないと思うんですけど、いくらでも抽象度の上げ方はあるわけですよ。

けんすう:はいはい。pixivって、14年で1億枚くらい投稿されたらしいんですね。

尾原:すげーな。

けんすう:「すげーな」と思ったんですけど、お絵かきAIによる生成数がすでに5,000万枚くらいになっているらしいんですよ。

ここから先は

3,939字
けんすうの視点でわかりやすくまとめた記事が毎月20本ぐらい読めます。ビジネス書1冊ぐらいの金額で様々な話題をキャッチアップできて便利です!

アル開発室

¥980 / 月

【全記事読み放題】クリエイターエコノミーの事業に挑戦しているアル社の裏側を知れるマガジンです。代表けんすうが、やっている事業の裏側やリリー…

サポートされたお金はすべて、クリエイター支援のための会社運営に使われます!