這幾天,又一個現(xiàn)象級人工智能(AI)工具登場了——代號為“納米香蕉”(Nano Banana)的圖像模型,憑借實測中的驚艷效果迅速躥紅。
社交媒體上,科技粉、設(shè)計師、內(nèi)容創(chuàng)作者都在瘋狂刷屏,連接不斷發(fā)表各自的使用心得、實用教程、玩法合集,眾多網(wǎng)友嘗鮮后更直接封其為“掌管P圖的神”“AI生圖新王”“上手最強圖像模型”……
這根出圈的“香蕉”其實就是谷歌推出的新一代AI圖像生成與編輯模型Gemini 2.5 Flash Image,不僅能融合多張圖片拼接出全新畫面,還能理解地理、建筑與物理結(jié)構(gòu),將二維地圖轉(zhuǎn)化為三維景觀。谷歌方面透露,“納米香蕉”上線一周內(nèi),已累計完成超2億次圖像編輯。
這根“香蕉”究竟有多好玩
記者發(fā)現(xiàn),網(wǎng)友用起“納米香蕉”來都是腦洞大開,各種玩法層出不窮。有的喜歡毫無違和感的跨時空合影,有的樂于給自己換各種發(fā)型,也有的用地圖生成三維景觀……當(dāng)然,最高頻的還是用照片定制手辦模型,無論是真人、二次元角色,還是小寵物,主打一個“萬物皆可手辦”,大批網(wǎng)友玩得不亦樂乎。
AI生成手辦
蔡小姐是個AI狂熱粉,大模型一有風(fēng)吹草動,她都會第一時間上手實測。連續(xù)玩了幾天“納米香蕉”后,她感到最興奮的有兩點:一是可以“用嘴P圖”,不需要很復(fù)雜的提示詞,直接和AI對話,它就能出色地完成P圖任務(wù)。“比如,我給了它一張背景是冬天的人像照片,人的表情本來很憂郁。我告訴AI,讓照片中的人笑一笑,很快它就生成了一張陽光燦爛的笑臉人像,而且畫面非常自然,感覺AI模型讀懂照片的能力提升了不少。”二是很多網(wǎng)友“瘋狂打Call”的照片生成手辦功能。蔡小姐嘗試把一張自己穿著拉丁舞服的照片上傳后,分分鐘就生成手辦模型圖,整條裙子上各種復(fù)雜的細(xì)節(jié)還原得很逼真,三維效果也非常出色,讓她立馬就想擁有這款手辦。
出圈背后藏著哪些AI能力
很多人都好奇的是,這根火出圈的“香蕉”里到底藏著哪些AI能力的提升?
如果說去年一夜刷屏的文生視頻模型Sora是用人類已有的“零件”拼裝出一輛汽車,那么,“納米香蕉”就是讓它變成一輛性能炸裂的超級跑車?!凹{米香蕉”擁有斷檔領(lǐng)先的圖像一致性。提供一張人物照片,讓它生成8種表情,或者變化角度、背景,甚至轉(zhuǎn)成三維圖像,人物都不會變形。在連續(xù)20次編輯操作中,字符一致性準(zhǔn)確率保持在95%以上。
在上海人工智能研究院技術(shù)總監(jiān)方帥看來,“納米香蕉”超多驚艷表現(xiàn),都來自于理解能力的提升。谷歌團(tuán)隊在介紹自己的產(chǎn)品時,也提到當(dāng)模型在圖像理解能力上變得更強時,其中一部分能力可以遷移到圖像生成上來。
“納米香蕉”利用谷歌Gemini大模型的知識儲備來生成和編輯圖像。一年前的Sora被人詬病最多的就是在對物理規(guī)則的理解上。比如,在老奶奶吹蠟燭的視頻中,蠟燭并沒有隨風(fēng)熄滅;在玻璃杯從空中墜落的視頻中,玻璃還沒有碎,里面的水已流出來了。但在“納米香蕉”中輸入氣球飄向仙人掌的圖像,并要求它預(yù)測下一幅畫面,它會顯示氣球炸裂,而仙人掌完好無損。
“納米香蕉”理解物理世界規(guī)則,知道氣球碰到仙人掌會炸裂。
更為重要的是,“納米香蕉”的交互模式高度符合人們想象中AI應(yīng)用該有的樣子,它能夠精確解析自然語言指令中的編輯需求,支持超過100種語言的提示詞,識別準(zhǔn)確率達(dá)到92%。比如,輸入一張人物圖像,說“給他戴上帽子”,模型就會輸出一張戴帽子的人物照。還有一個爆火的“火柴人”玩法,輸入若干張照片后,用火柴人畫出動作,模型就能生成邏輯自洽的動作圖,如一人踢腿進(jìn)攻,一人蹲下防守。
還會有什么顛覆式AI應(yīng)用
現(xiàn)象級應(yīng)用總能引發(fā)人們對AI未來的更多想象,而由此帶來的改變正悄然加速。
在小紅書上,已有網(wǎng)友將自己的創(chuàng)意腦洞轉(zhuǎn)化成娃衣、飾品、手機殼、明信片等實體商品,通過軟件自帶的店鋪完成銷售閉環(huán)。這一以往只有設(shè)計師才能完成的工作,現(xiàn)在任何普通人都能參與,以成本15元、售價68元的藝術(shù)插畫手機殼為例,月銷100件即可創(chuàng)造不菲利潤。AI也帶來生產(chǎn)和銷售模式的變化,設(shè)計師們往往會先輸出海量的圖片,用流量判斷哪個受歡迎,再生產(chǎn)實體產(chǎn)品。
用語音讓Step1X-Edit模型將改變女孩外貌。小紅書AI大法師視頻截圖
“‘納米香蕉’圖片轉(zhuǎn)手辦的玩法非常有意思,但單靠它,目前還不能真正拿來做手辦。”二次元手辦企業(yè)APEX-toy創(chuàng)始人馬力告訴記者,主要原因是手辦有很多細(xì)節(jié),當(dāng)下二次元手辦的平均配件數(shù)量在150個左右,有的甚至超過300個,AI還無法精細(xì)還原,“不過潮玩設(shè)計可能會用得上”。
事實上,中國“AI天團(tuán)”在圖像生成和編輯領(lǐng)域的布局步伐并不慢。階躍星辰副總裁李璟表示,早在今年5月,階躍星辰的開源圖像編輯大模型Step1X-Edit已具備“納米香蕉”的同類能力,在語義精準(zhǔn)解析、身份一致性保持、高精度區(qū)域級控制上表現(xiàn)驚艷,“實際演示中,我們看到只需要對話就可以任意修改圖片中的元素,比如改發(fā)型、改衣服顏色,將盒子里的粽子改成月餅,甚至讓人物變老30歲,都不在話下”。
Step1X-Edit用語音讓大模型將盒子中的月餅換成包子。 小紅書AI大法師視頻截圖
李璟還透露,Step1X-Edit與“納米香蕉”技術(shù)路線的追求不謀而合。但針對視頻、圖像類的交互產(chǎn)品,其背后的多模態(tài)大模型還將有大量的技術(shù)迭代。接下來的應(yīng)用核心是智能終端智能體,如用于汽車、手機以及電腦桌面的工作助手智能體。階躍星辰正全力尋求“理解生成一體化”的架構(gòu)式突破,或?qū)砀嵏彩降腁I應(yīng)用。
先做產(chǎn)品還是先做架構(gòu),目前還沒有答案,唯一肯定的是,每個人都看到了機會,競爭變得異常激烈?!凹{米香蕉”團(tuán)隊坦言:其目標(biāo)不僅是提升視覺質(zhì)量,更要追求聰明和事實準(zhǔn)確性;希望打造一個能理解用戶深層意圖的AI,甚至比人做得更好。