![見出し画像](https://assets.st-note.com/production/uploads/images/146034902/rectangle_large_type_2_8018c6a2cbe346506b29a413a55ed533.png?width=1200)
現時点での動画生成AIで何ができるのか?を試したまとめ
こんにちは!
今日は、動画の生成AIが一つ強いのが出てきて、それを触っていました。
RunwayというやつのGen-3というものです。
興味ある人は触ってみてください!
というわけで、動画生成AIは「まだまだ時間がかかるよね」と言われているものなんですが、2024年7月時点ではどうだったのか、と言うのを記録しておくと、将来見たときにちょっと面白いのではと思うので、メモがてら書いてみます。
どんな感じ?
動画は綺麗だし、それなりに自然という印象です。ただし、写真よりも、変なところが目立つので、実用性があるのか?というとかなり難しいだろうなあ、と。
広告とかで使えるんじゃないか!という期待もあると思うんですが、正直結構大変だろうなあ、と思いました。
違和感が少なかったもの
まず、比較的違和感がなかったものから紹介します。
絶対売れなそうなプロダクトを開発してしまったCEO pic.twitter.com/2x3canfC9Q
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
「東洋人のCEOが製品発表会でプレゼンをするが、手にはドリルがついている」というものを作りたかったのですが、ドリルが微妙なものになってしまいました。
ただ、動画としては、破綻が少なく、それなりに見れるものになっています。例えば、これを編集して
「どんなプレゼンをしても、プロダクトがダメなら意味がありません」
「ユーザー調査なら⚪︎⚪︎株式会社」
みたいなものを作ったら、それなりにCMぽく見えるかもしれないですね。
では次の動画です。
「雨の中で、牛の餌みたいな草を食べる青年」を出してみたのですが、これも破綻が少なく、動画としてみれるものになっています。
何があったんだよ pic.twitter.com/QtP4CtXjca
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
表情とかも雨の中、なにか辛いことがあったんだろうな、という感じになっています。
あと、おそらく学習データの偏りなのか、「ランウェイをモデルが歩く」とかはすごく得意ぽい雰囲気を感じました。
おそらく、ランウェイを歩くモデル、みたいな動画が世の中に多いせいか、ものすごい安定して出力される。ただし、いつも同じ構図になる。
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
服装は変なんだけど「こういうのもありそう」とは思ったw pic.twitter.com/2hBQVovKu4
光の当たり方とかがワンパターンにはなりますが「あ、ランウェイぽいな」と言う動画は簡単に作れます。観客がちょっと怪しいですが・・・。
弱点としては「すべての指示がモデルのファッションに吸収されてしまう」です。どんなプロンプトを与えても、奇抜なファッションとして消化されてしまうんです。
上記の動画で言うと、実は「真ん中に目玉が一つあり、その周りを囲うように、小さい目玉が大量についたモンスターがランウェイを歩いてくる」みたいなプロンプトで指示をしたんです。
でも、目玉ぽいのがちゃんとファッションとして消化されているんですよね。要は服になってしまっている。よくみたら、髪型や服として、指示されたプロンプトが生きている感じがします。
この「ランウェイが得意」は他の動画に利用することもできました。
例えばロボット兵器を歩かせる、とかをやると、映画の一シーンみたいな感じで出すことができます。
だから、映画の一シーンのように、何かが前から歩いてくる、と言うときは「ランウェイを歩いている」と言った方が生成成功率が高い。
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
ロボット兵がランウェイを歩いている
とかくと、こういう感じで出力される。 pic.twitter.com/CkicJKThJY
これは結構悪くないですね。
後ほどに説明しますが、AIで作る画像や動画には「中心のオブジェクトに周りは引っ張られる」という法則があります。
この法則をうまく使ってくれるので、中身がロボットだと近未来風になりましたし、「独裁者がランウェイを歩く」としたら、将校みたいな人たちが自動的に観客になりました。
同じく、おそらく「ニュースキャスターがテレビで話している」とかは得意そうな予感でした。データが多いのかも。
「ニュースキャスターが神妙な顔をしているが、どうみても目の前がピザパーティーの始まり」みたいなプロンプトで指示をしたんですが、以下の通り、破綻が少なかったです。
同じ理屈で、おそらく「ニュースキャスターが話している動画は多いだろう」と思ったのでやってんみたんですが、これも確かに生成されやすい。 pic.twitter.com/c6xpqb32AD
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
違和感があるもの
それでは違和感があるものです。
基本的には「AIは、それっぽく見える、それっぽいものを出す」なので、細かいところを見ると変だったり、細かい何かに意図が全くなかったりします。なので、細かく見るものではないんですが・・・。それでもおかしなことは起こります。
例えば、とうもろこしを初めてみて「なんだこれ」と議論しているエリートビジネスパーソンを出そうとしたんですが、明らかにとうもろこしの質量がありません。
とうもろこしを初めてみたエリートビジネスパーソンたち pic.twitter.com/fh138SXecB
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
なんかすごいペラペラしているんですよね。違和感を感じます。
あと、先ほどもチラッと言いましたが、周りのものに影響されやすいと言うのもあります。「中心のオブジェクトに周りは引っ張られる」っていうやつです。。
例えば、頭がパイナップルの人間が踊り狂っている動画を作りたかったんですが、頭がパイナップルだと、ちょっと手とかがバグったりします。
例えば「頭がパイナップルの人間が踊り狂う」みたいにすると、頭に引き摺られて、手がパイナップルぽくなってしまうことがある。
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
ありえない動画を生成するというのがAIの良さだとした時に、割と主軸となる情報に引っ張られてしまうのかな? pic.twitter.com/1q8ZqhAKeu
イメージですが、「このオブジェクトがあるってことは、この辺りにこれがあるのが自然だよね」と考えてしまっているというか。パイナップルの周りには、他の果物とかがあったり、料理があったりする、とかが影響するんだと思います。
あと、やはり細かいところは苦手です。
「キーボードを叩きすぎたら燃えた」と言う動画を作ろうとしたんですが、キーボードや手元がちょっと怪しいですし、火元も変です。
キーボードを叩きすぎて燃えてしまう人 pic.twitter.com/dtcmidoh3V
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
同じく「農作業をしている老人だが、手がドリル」と言うのを作ろうとしましたが、手元がちょっとおかしなことになりました。なんだこの道具。
素朴な農作業をやってそうなのによく見ると、思った以上に謎の機械を使っている人 pic.twitter.com/Zw1F092OVv
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
そもそも、AIにとっては手がドリルという概念が難しいんでしょうね。なので、特撮での怪人などを出す、みたいな「コストがかかる小物があるシーンを省略する」みたいな使い方は今のところは難しそうです。
まあ、この辺りはまだ良くて、例えば、「ジャンプして喜んでいる人」みたいなのを生成しようとしたら、以下みたいな動画になってしまいました。
AIでないと作られないような動画が生成された。なんだこれ pic.twitter.com/hpSb96KUVH
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
ものすごいジャンプをした上で、空中で足と頭が入れ替わり、気づいたら地球を見下ろしていた、という動画になります。変なの!
ちなみに、漫才のツッコミを作ろうとしたら、漫才自体をあまり知らないのか、男女が融合して宙に浮かぶ謎の動画になりました。
AIが考える漫才のツッコミが僕の知っているのと全然違った・・・ pic.twitter.com/LXk9Cm7WhJ
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
こういうように、めっちゃ破綻する動画も多く出てきます。
「人と人は融合しがち」と言う法則もあります。例えば、柔道とかをやらせると、人と人が溶け合っちゃうんです。人類補完計画みたいになります。
取っ組み合っているうちに、どこが境界線だかわからなくなっちゃう感じですね。なので、人があまり近づかない方が良さそうです。
あとは、「ありえなすぎる指示を出すと、アニメになる」という挙動もありました。しかし、別にアニメになったからといって自由度が上がるわけではありません。むしろ表現は下手になります。
例えば
「神様がいる世界で、体が犬の人間が走り回っている。その後ろでは、天使が飛んでいるが、天使の顔は羊である。雲は赤く、まるで血のようだ。神は自らの肉体をパンとしたが、そのパンが大きすぎるため、誰も食べることはできない。」
という動画を作ろうとしたのですが、アニメになった上に、かなりが再現されませんでした。
抽象度が高いと全然良いのが出ないので、具体性を高めたら、実写が無理だと判断されたのかアニメ風になった。… pic.twitter.com/ZhWJcgupLx
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
ありえない表現だったり、状況だったり、「神が自らの肉体をパンとした」みたいなわけのわからないことを言うと、抽象度が高すぎて変になるわけです。結構頑張ったアウトプットだとは思いますが・・・。
あとは、「フランスパンを武器に戦う香港の警察」を作ろうとしたのですが、フランスパンが途中から二重になったりしてしまいます。
めっちゃでかいフランスパンを取り合う香港警察 pic.twitter.com/iasxzDLJ8q
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
フランスパンは武器じゃないからなのか、なんか揉み合っちゃっていますね。こういうおかしなことも頻出しちゃいます。
また、動画として遠いものは再現性が低かったです。
例えば、人間とコーラが融合して、溶け合う動画を作ろうとしたのですが、これが一番難しかったです。後から気づいたのですが、人間はコーラとは結構かけ離れているので、人間をコーラにしようとすると、突然液体になって怖いんですね。
なので「コーラを飲もうとして間違えて頭から被ってしまう、その過程でコーラになる」とかをやろうとしたんですが、これでもやはりかなり突然感が出てしまいます。
解決方法としては「髪の長い人をトランポリンで飛ばして」「髪がファッサーとなったところで」「コーラを自分にかけることで」「コーラと髪の毛が融合してコーラの一部のようになれる」と言う方法が一番マシでした。
【動画生成プロンプトのコツ】
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
「コーラと女性を自然と融合させたい」という時のプロンプトのコツなんですが
・トランポリンに乗ってジャンプさせる
・コーラを手に持たせる
・空中で髪がファッサーとなるタイミングで融合させる
です。… pic.twitter.com/zfKv53FK8G
ただし、これも「髪の長い男性」でやろうとすると、おそらく学習データが少ないのか、上手くいきません。人間とコーラを繋ぎ合わせるために、ある程度の条件がないと自然にならないというのがありました。
一方で、色とかが似てれば無理やりトランスフォーメーションしてくれる場合もあります。
大きなフランスパンかと思ったら、ダックスフンドだった、と言う動画を作ったんですが、無理やり変化します。
めちゃでかいフランスパンかと思ったらダックスフンドになった pic.twitter.com/V7OD6dw6Fb
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
めちゃくちゃ変な動画なんですが、CGを使ったのか、みたいな感じで見れなくもないですね。
一方で、独特の場面でも、要素が分離していれば、意外と複雑なものを組み合わせてもいけます。
「アジア人ぽい複数の男性が、ひたすらに牛の餌のような草を食べている。手づかみで。ただし、服装はスーツであり、ホテルのような高級な場所である。背景では核戦争が起きている。」
という、設定がごちゃごちゃしたもので試したんですが、かなり読み取っています。
ranwayのGen-3という動画をAIで作れるのが出てたので使ってみたんですが、地獄のような動画が生まれてしまった。 pic.twitter.com/4T7Aj5Kn8k
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
人間が何かを食べている、と言うのと、草、と言うのと、窓の外が核戦争が起こっている、と言うのはあまり動画的な無茶がない(組み合わせでいける)で、可能なのかもしれません。
ただし、牛の餌を食べていると、牛が出てきてしまうと言うのがありました。やはり、中心のオブジェクトに引っ張られて他の要素が混ざってきちゃうわけですね。
ちなみに、余談ですが、上記の動画で双頭の牛が出てきたので「ケルベロスとか作れるんじゃないか」と思って、色々試したんですが・・・。
全然ダメでした。実在しない動物を作るとかの難易度は相当高かったです。
というので、なんでもできそうに見えて、意外とできないことは多いなあ、と言うのがポイントです。
ごまかしが効く、それっぽい動画だったら通用するかもしれません。例えばホラー映画とかは、突然脈絡がない方が怖いので、ワークします。
ホラー映画などは、脈絡ない方がドキドキするので、向いているのかもしれない pic.twitter.com/7zFgsAoIP5
— けんすう - きせかえNFTの「sloth」 (@kensuu) July 2, 2024
突然、部屋の中に倒れた男性がいるとか、突然草むらから人がやってきて歩いてくるとかが怖いと思わせられるわけです。
ちなみに「AIが考える、脈絡のない怖い夢」みたいなプロンプトで作ったら、結構怖かったのでオススメしません。AIの考える怖い夢って、なんかすごい粗い動画で、病院みたいな廊下を歩いているうちに空間が避けたり天井から黒い闇がきて飲み込まれて、別の空間にいく方向なんですすよ・・・。
というわけで
色々試した結果でした。
ちなみにこれの数倍、アウトプットしているんですが、これらはかなりまともな方なんです。
他の動画だと「人間が歩いているが、頭が牛の尻尾になって、そのままタンスに倒れ込んだかと思ったら、牛に変化する」みたいなすごく気持ち悪い動画になったりとか、「犬とお祖父さんが触れ合っているほのぼのとした動画」を作ろうとしたら、おじさんが四つん這いで歩いているうちに黒い犬になっていく、みたいなホラーな動画になったりとか、
人間が目玉焼きを作って犬にあげる動画を作ろうとしたら「目玉焼きを食べたら犬に変化して、その後にまた人間が出てきて、目玉焼きを食べさせようとする」みたいになったりしました。
流石にアップするのも憚れるようなものだったので文字だけですが・・・。そういうものが大量に出てくるので苦手な人は注意かもしれません。
人間と動物が混ざる動画を作ると、融合して、トランスフォーメーションしちゃう場合が多いのかな?と思っています。
あと言っていないテクニックとしては「ゲーム実況にして、3Dゲームのプレイ動画にする」と途端に精度は上がります。ゲーム動画をでっちあげるとかは結構簡単にできそうですね。
というわけで、課題や粗は当然あれど、「動画を生成できるようになるのはだいぶ先」と言われてたのに、10秒くらいの動画だと、そこそこの精度になってきたのは驚くべきことだなと思いました。
これも数年で非常に精度が上がりそうな分野なので、楽しみですね。
では!
サポートされたお金はすべて、クリエイター支援のための会社運営に使われます!