這幾天,又一個(gè)現(xiàn)象級(jí)人工智能(AI)工具登場(chǎng)了——代號(hào)為“納米香蕉”(Nano Banana)的圖像模型,憑借實(shí)測(cè)中的驚艷效果迅速躥紅。
社交媒體上,科技粉、設(shè)計(jì)師、內(nèi)容創(chuàng)作者都在瘋狂刷屏,連接不斷發(fā)表各自的使用心得、實(shí)用教程、玩法合集,眾多網(wǎng)友嘗鮮后更直接封其為“掌管P圖的神”“AI生圖新王”“上手最強(qiáng)圖像模型”……
這根出圈的“香蕉”其實(shí)就是谷歌推出的新一代AI圖像生成與編輯模型Gemini 2.5 Flash Image,不僅能融合多張圖片拼接出全新畫面,還能理解地理、建筑與物理結(jié)構(gòu),將二維地圖轉(zhuǎn)化為三維景觀。谷歌方面透露,“納米香蕉”上線一周內(nèi),已累計(jì)完成超2億次圖像編輯。
這根“香蕉”究竟有多好玩
記者發(fā)現(xiàn),網(wǎng)友用起“納米香蕉”來(lái)都是腦洞大開(kāi),各種玩法層出不窮。有的喜歡毫無(wú)違和感的跨時(shí)空合影,有的樂(lè)于給自己換各種發(fā)型,也有的用地圖生成三維景觀……當(dāng)然,最高頻的還是用照片定制手辦模型,無(wú)論是真人、二次元角色,還是小寵物,主打一個(gè)“萬(wàn)物皆可手辦”,大批網(wǎng)友玩得不亦樂(lè)乎。
AI生成手辦
蔡小姐是個(gè)AI狂熱粉,大模型一有風(fēng)吹草動(dòng),她都會(huì)第一時(shí)間上手實(shí)測(cè)。連續(xù)玩了幾天“納米香蕉”后,她感到最興奮的有兩點(diǎn):一是可以“用嘴P圖”,不需要很復(fù)雜的提示詞,直接和AI對(duì)話,它就能出色地完成P圖任務(wù)。“比如,我給了它一張背景是冬天的人像照片,人的表情本來(lái)很憂郁。我告訴AI,讓照片中的人笑一笑,很快它就生成了一張陽(yáng)光燦爛的笑臉人像,而且畫面非常自然,感覺(jué)AI模型讀懂照片的能力提升了不少。”二是很多網(wǎng)友“瘋狂打Call”的照片生成手辦功能。蔡小姐嘗試把一張自己穿著拉丁舞服的照片上傳后,分分鐘就生成手辦模型圖,整條裙子上各種復(fù)雜的細(xì)節(jié)還原得很逼真,三維效果也非常出色,讓她立馬就想擁有這款手辦。
出圈背后藏著哪些AI能力
很多人都好奇的是,這根火出圈的“香蕉”里到底藏著哪些AI能力的提升?
如果說(shuō)去年一夜刷屏的文生視頻模型Sora是用人類已有的“零件”拼裝出一輛汽車,那么,“納米香蕉”就是讓它變成一輛性能炸裂的超級(jí)跑車?!凹{米香蕉”擁有斷檔領(lǐng)先的圖像一致性。提供一張人物照片,讓它生成8種表情,或者變化角度、背景,甚至轉(zhuǎn)成三維圖像,人物都不會(huì)變形。在連續(xù)20次編輯操作中,字符一致性準(zhǔn)確率保持在95%以上。
在上海人工智能研究院技術(shù)總監(jiān)方帥看來(lái),“納米香蕉”超多驚艷表現(xiàn),都來(lái)自于理解能力的提升。谷歌團(tuán)隊(duì)在介紹自己的產(chǎn)品時(shí),也提到當(dāng)模型在圖像理解能力上變得更強(qiáng)時(shí),其中一部分能力可以遷移到圖像生成上來(lái)。
“納米香蕉”利用谷歌Gemini大模型的知識(shí)儲(chǔ)備來(lái)生成和編輯圖像。一年前的Sora被人詬病最多的就是在對(duì)物理規(guī)則的理解上。比如,在老奶奶吹蠟燭的視頻中,蠟燭并沒(méi)有隨風(fēng)熄滅;在玻璃杯從空中墜落的視頻中,玻璃還沒(méi)有碎,里面的水已流出來(lái)了。但在“納米香蕉”中輸入氣球飄向仙人掌的圖像,并要求它預(yù)測(cè)下一幅畫面,它會(huì)顯示氣球炸裂,而仙人掌完好無(wú)損。
“納米香蕉”理解物理世界規(guī)則,知道氣球碰到仙人掌會(huì)炸裂。
更為重要的是,“納米香蕉”的交互模式高度符合人們想象中AI應(yīng)用該有的樣子,它能夠精確解析自然語(yǔ)言指令中的編輯需求,支持超過(guò)100種語(yǔ)言的提示詞,識(shí)別準(zhǔn)確率達(dá)到92%。比如,輸入一張人物圖像,說(shuō)“給他戴上帽子”,模型就會(huì)輸出一張戴帽子的人物照。還有一個(gè)爆火的“火柴人”玩法,輸入若干張照片后,用火柴人畫出動(dòng)作,模型就能生成邏輯自洽的動(dòng)作圖,如一人踢腿進(jìn)攻,一人蹲下防守。
還會(huì)有什么顛覆式AI應(yīng)用
現(xiàn)象級(jí)應(yīng)用總能引發(fā)人們對(duì)AI未來(lái)的更多想象,而由此帶來(lái)的改變正悄然加速。
在小紅書上,已有網(wǎng)友將自己的創(chuàng)意腦洞轉(zhuǎn)化成娃衣、飾品、手機(jī)殼、明信片等實(shí)體商品,通過(guò)軟件自帶的店鋪完成銷售閉環(huán)。這一以往只有設(shè)計(jì)師才能完成的工作,現(xiàn)在任何普通人都能參與,以成本15元、售價(jià)68元的藝術(shù)插畫手機(jī)殼為例,月銷100件即可創(chuàng)造不菲利潤(rùn)。AI也帶來(lái)生產(chǎn)和銷售模式的變化,設(shè)計(jì)師們往往會(huì)先輸出海量的圖片,用流量判斷哪個(gè)受歡迎,再生產(chǎn)實(shí)體產(chǎn)品。
用語(yǔ)音讓Step1X-Edit模型將改變女孩外貌。小紅書AI大法師視頻截圖
“‘納米香蕉’圖片轉(zhuǎn)手辦的玩法非常有意思,但單靠它,目前還不能真正拿來(lái)做手辦?!倍卧洲k企業(yè)APEX-toy創(chuàng)始人馬力告訴記者,主要原因是手辦有很多細(xì)節(jié),當(dāng)下二次元手辦的平均配件數(shù)量在150個(gè)左右,有的甚至超過(guò)300個(gè),AI還無(wú)法精細(xì)還原,“不過(guò)潮玩設(shè)計(jì)可能會(huì)用得上”。
事實(shí)上,中國(guó)“AI天團(tuán)”在圖像生成和編輯領(lǐng)域的布局步伐并不慢。階躍星辰副總裁李璟表示,早在今年5月,階躍星辰的開(kāi)源圖像編輯大模型Step1X-Edit已具備“納米香蕉”的同類能力,在語(yǔ)義精準(zhǔn)解析、身份一致性保持、高精度區(qū)域級(jí)控制上表現(xiàn)驚艷,“實(shí)際演示中,我們看到只需要對(duì)話就可以任意修改圖片中的元素,比如改發(fā)型、改衣服顏色,將盒子里的粽子改成月餅,甚至讓人物變老30歲,都不在話下”。
Step1X-Edit用語(yǔ)音讓大模型將盒子中的月餅換成包子。 小紅書AI大法師視頻截圖
李璟還透露,Step1X-Edit與“納米香蕉”技術(shù)路線的追求不謀而合。但針對(duì)視頻、圖像類的交互產(chǎn)品,其背后的多模態(tài)大模型還將有大量的技術(shù)迭代。接下來(lái)的應(yīng)用核心是智能終端智能體,如用于汽車、手機(jī)以及電腦桌面的工作助手智能體。階躍星辰正全力尋求“理解生成一體化”的架構(gòu)式突破,或?qū)?lái)更顛覆式的AI應(yīng)用。
先做產(chǎn)品還是先做架構(gòu),目前還沒(méi)有答案,唯一肯定的是,每個(gè)人都看到了機(jī)會(huì),競(jìng)爭(zhēng)變得異常激烈?!凹{米香蕉”團(tuán)隊(duì)坦言:其目標(biāo)不僅是提升視覺(jué)質(zhì)量,更要追求聰明和事實(shí)準(zhǔn)確性;希望打造一個(gè)能理解用戶深層意圖的AI,甚至比人做得更好。