給大家介紹一下,這是我家一位練習(xí)時(shí)長(zhǎng)四年半的小狗:
我一直很喜歡這張照片,因?yàn)樗浞终宫F(xiàn)了家里所有人對(duì)它的嬌寵。
前兩天我拿到了豆包的Seedream4.0的內(nèi)測(cè)碼。
操作流程很簡(jiǎn)單:“打開(kāi)豆包App對(duì)話框→點(diǎn)擊【AI 生圖/生視頻】→點(diǎn)擊輸入框→選擇上傳參考圖→輸入文字指令”。
很多人跟我說(shuō),這是中國(guó)的Nano Banana,尤其在精準(zhǔn)指令編輯方面,它經(jīng)常表現(xiàn)得甚至更加出色。我剛好在整理舊手機(jī)的相冊(cè),準(zhǔn)備以除舊迎新的積極態(tài)度迎接果年春晚(不一定真買(mǎi)),于是干脆把這張照片扔給了Seedream4.0,并對(duì)它說(shuō):
“給它戴上好看的華麗的豐富的首飾?!?/p>
這個(gè)prompt是我瞎想的,細(xì)究起來(lái)甚至是有點(diǎn)語(yǔ)病的。我想起現(xiàn)在網(wǎng)上到處都是教人寫(xiě),像小作文一樣長(zhǎng)的Nano Banana的prompt,這樣去折騰內(nèi)測(cè)碼,其實(shí)是有點(diǎn)慚愧的。
然后Seedream4.0給我生成了一張毫無(wú)違和感的圖。
我立馬就不困了,因?yàn)檫@個(gè)照片還原度實(shí)在是太高了。
最絕的是,這狗雖然全身是珠寶,但珠寶都不亮,所有的反光都很克制——可以說(shuō)是完美地還原了北京老破小房間里的黯淡。
可不能就這么委屈了這滿(mǎn)身的珠寶。于是我對(duì)Seedream4.0說(shuō),“將它置身于一個(gè)舞廳里?!?/p>
Seedream4.0不僅選了一個(gè)跟珠寶配色很搭的場(chǎng)景環(huán)境色,連珠寶的飽和度和亮度也明顯提高了,首飾的色澤跟隨環(huán)境的變化明顯更鮮艷了,毛發(fā)邊緣的光線散射也發(fā)生了變化,仿佛它真的穿越到了那個(gè)舞廳里。
它的還原度如此之高,以至于Seedream4.0簡(jiǎn)直變成了一種賽博阿拉丁神燈。
養(yǎng)過(guò)狗的人大概都知道,狗狗的表情很豐富,而且有一個(gè)完整屬于自己的世界。這件事情的副作用是,鏟屎官抓拍的表情經(jīng)常是懸浮于環(huán)境和場(chǎng)合的。但有了Seedream4.0的驚艷表現(xiàn),我決定嘗試給不同的小狗表情配上不同的場(chǎng)景。
操作步驟與第一張圖的流程一樣,先換一身衣服,再換背景。這樣prompt的成功率很驚人,只要想好人物與場(chǎng)景的關(guān)系,幾乎沒(méi)有出現(xiàn)過(guò)因?yàn)樘卣髋で鴮?dǎo)致的廢片。
背景替換不是一個(gè)今天才有的功能,但Seedream4.0讓人驚艷的有兩點(diǎn):
第一,它兼具精準(zhǔn)指令編輯能力與高度特征保持能力
你不希望它改變的地方,它都能完整保留下來(lái)。無(wú)論是照片里的水汽,還是毛發(fā)與皮膚的紋路,幾乎都沒(méi)有發(fā)生任何一眼可見(jiàn)的變化。
在圖片中,你看不到任何AI油光水滑的油膩感,或者自動(dòng)加噪引發(fā)的真實(shí)感,每一張圖片都是自然的。
第二,在“第一”的基礎(chǔ)上,它呈現(xiàn)了一定的世界觀的能力
比如,在酒店當(dāng)迎賓員的小狗,陽(yáng)光角度近似但不同,在脖子上留下的陰影角度也隨之有了細(xì)微的變化;叼著煙的牛仔,他的面部溝壑有輕微的加深;在航天飛船里,人的手臂也跟著小狗多出了一截太空服。
這些都不是簡(jiǎn)單的環(huán)境色渲染的結(jié)果,它們意味著模型已經(jīng)有了很實(shí)打?qū)嵉膶?duì)現(xiàn)實(shí)理解能力,只是它很克制,但你仔細(xì)看就能發(fā)現(xiàn)它無(wú)處不在。
為了進(jìn)一步探索模型對(duì)現(xiàn)實(shí)的理解和推理能力,我做了更多的嘗試。
這是我從unsplash下載的一張圖,圖里是一塊老式的俄制的老式指針式直流電流表。
我對(duì)Seedream4.0說(shuō),“將指針移動(dòng)到右邊?!?/p>
說(shuō)實(shí)話我當(dāng)時(shí)有點(diǎn)驚訝,它對(duì)“右”的理解很精準(zhǔn)。在這張圖里,“右”不是一個(gè)橫向水平的正東的朝向,而是在20刻度線偏右一點(diǎn)的位置上,這與人們的日常經(jīng)驗(yàn)是完全符合的。
我繼續(xù)試驗(yàn)了一下文本推理能力,同樣是unsplash上隨機(jī)找到的一張訓(xùn)練圖。
我告訴Seedream4.0,將球衣數(shù)字換成“梅西在美國(guó)大聯(lián)盟的球衣號(hào)碼”。
Seedream4.0 自己確認(rèn)了準(zhǔn)確地球衣號(hào)碼,找到了球衣數(shù)字,再替換了球衣數(shù)字,甚至連球衣上的紋理都做了還原。
我在圖庫(kù)里剛好看到一道被故意算錯(cuò)了的數(shù)學(xué)題。
于是我讓seedream4.0將答案修改正確。
從以上圖片編輯的效果來(lái)看,Seedream4.0的文字編輯能力是很驚艷的。而在實(shí)測(cè)中,它甚至可以改變大段的文字。所以,你甚至可以在這個(gè)自然語(yǔ)言生成圖像的工具里,直接通過(guò)自然語(yǔ)言修改字幕了。
甚至你可以讓Seedream4.0嘗試更高階的玩法,讓它直接翻譯圖片里的中文。它在翻譯過(guò)程中,依然能保證畫(huà)面和文字的質(zhì)感是穩(wěn)定不跳脫的,上下的字體也都維持了原來(lái)的樣子。
只要你曾經(jīng)用過(guò)AI生圖工具,就會(huì)知道這件事情有多夸張。在此之前,只有nano banana算做到了這件事情。
測(cè)到這里,我想所有人腦子里都會(huì)自然而然地跳出,“這不就是中國(guó)的nano banana”。
所以我決定直接測(cè)一些nano banana的熱門(mén)demo。
比如,將之前的狗狗照片生成“手辦”圖。
還有許多人關(guān)注的OOTD(今日穿搭),我想在你們看到這篇測(cè)評(píng)的時(shí)候,OOTD已經(jīng)被不少同行給玩透了。所以我結(jié)合這次的圖片修復(fù)功能,為OOTD功能整一些不一樣的花活。
首先,我們請(qǐng)出學(xué)神愛(ài)因斯坦老師。這是它一張不多見(jiàn)的全身照。
然后我們告訴Seedream將它修復(fù)。
我從巴黎世家的官網(wǎng)找到了衣服、褲子和鞋子,于是有了一個(gè)跨越時(shí)空的穿搭。
可以看到Seedream4.0對(duì)整體產(chǎn)品的還原度都是在線的,褲子的做舊細(xì)節(jié)和鞋子的紋路都實(shí)現(xiàn)了還原。
(不過(guò)Seedream對(duì)合規(guī)的審核很?chē)?yán)格,名人穿搭不太容易過(guò)審,經(jīng)常會(huì)被ban,大家可以謹(jǐn)慎嘗試)
在文字直接生成圖片方面,Nano Banana 官方前段時(shí)間曾開(kāi)放了六個(gè)示例,涉及到了不同的能力側(cè)面。我想,谷歌方面試圖從這六個(gè)示例,以完整呈現(xiàn)其在不同場(chǎng)景的生圖能力。而且為了輔助用戶(hù)上手,Nano Banana 還貼心地給了prompt提示詞和對(duì)應(yīng)的生圖節(jié)奏。
對(duì)于一家AI媒體來(lái)說(shuō),或許很難找到比這六個(gè)示例更能直觀展現(xiàn)Seedream4.0和Nano Banana的能力與風(fēng)格對(duì)比了。
因此我將這六個(gè)示例的prompt都導(dǎo)入了內(nèi)容,左邊是Nano Banana,右邊是Seedream4.0。Seedream 4.0有時(shí)會(huì)生成多張圖,考慮到Nano Banana提供的是官方示例,我也會(huì)選擇多張圖中自認(rèn)為最好的那一張。如果生成水平差不多,我就默認(rèn)選擇第一張。
示例一
A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.一幅逼真的特寫(xiě)肖像,描繪了一位年長(zhǎng)的日本陶藝家。他臉上布滿(mǎn)深深的、被陽(yáng)光刻蝕的皺紋,露出溫暖而洞悉一切的笑容。他正仔細(xì)端詳一只剛上釉的茶碗。場(chǎng)景設(shè)定在他那間質(zhì)樸、陽(yáng)光充足的工作室里。柔和的黃金時(shí)刻光線透過(guò)窗戶(hù)灑入,照亮了陶土細(xì)膩的紋理。作品由 85 毫米人像鏡頭拍攝,背景呈現(xiàn)柔和的虛化效果(焦外成像)。整體氛圍寧?kù)o而盡顯大師風(fēng)范。肖像采用豎版構(gòu)圖。(豆包翻譯)
相比于Nano Banana,Seedream4.0對(duì)“85 毫米人像鏡頭”的把控更好,鏡頭虛化效果的還原度更高,面部溝壑更自然。在前文提及的世界觀方面,Seedream4.0的陽(yáng)光感更好,一看就是夕陽(yáng)“黃金時(shí)刻”的陽(yáng)光,在房間里光漫射效果也很到位。
總體來(lái)說(shuō),Nano Banana的AI感更強(qiáng),屬于一眼AI圖;但Seedream4.0乍一眼,真的會(huì)以為是一張照片。
不過(guò)豆包似乎對(duì)“ freshly glazed ”的理解不太一樣,因此陶瓷的釉面沒(méi)有上完。因此,這個(gè)示例算平手。
示例二
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.一張可愛(ài)風(fēng)格的貼紙,上面是一只開(kāi)心的小熊貓,它戴著一頂小小的竹帽,正在啃一片綠色的竹葉。設(shè)計(jì)采用鮮明清晰的輪廓、簡(jiǎn)單的賽璐珞 shading 技法和鮮艷的色彩搭配。背景必須是白色的。(豆包翻譯)
都很可愛(ài),個(gè)人喜歡banana的風(fēng)格,但Seedream4.0似乎更符合prompt里“vibrant color palette”的設(shè)定。
示例三
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.為一家名為 “The Daily Grind” 的咖啡店設(shè)計(jì)一個(gè)現(xiàn)代簡(jiǎn)約風(fēng)格的標(biāo)志。文字部分采用簡(jiǎn)潔、粗體的無(wú)襯線字體。設(shè)計(jì)中需包含一個(gè)簡(jiǎn)約的、風(fēng)格化的咖啡豆圖標(biāo),與文字無(wú)縫融合。配色方案為黑白兩色。(豆包翻譯)
Seedream的設(shè)計(jì)很不錯(cuò),但banana更有巧思,banana勝。
示例四
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.一張高分辨率的工作室燈光產(chǎn)品照,主體是一只啞光黑色的簡(jiǎn)約陶瓷咖啡杯,放置在拋光混凝土表面上。燈光采用三點(diǎn)柔光箱設(shè)置,旨在營(yíng)造柔和、漫射的高光,消除生硬的陰影。拍攝角度為稍高的 45 度角,以展現(xiàn)杯子流暢的線條。畫(huà)面超寫(xiě)實(shí),清晰聚焦于咖啡升起的熱氣。
這個(gè)提示詞的難度有點(diǎn)高,Seedream沒(méi)有理解三點(diǎn)柔光箱設(shè)置。所以我重新強(qiáng)調(diào)了,不要讓光源出現(xiàn)在圖片里。
雙方都是高度寫(xiě)實(shí)場(chǎng)景。但seedream4.0都符合了prompt的要求,角度抬高了45°,只是光源最后也沒(méi)有處理好。這一題就先放過(guò)。
示例五
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.一幅極簡(jiǎn)構(gòu)圖的作品,一片纖薄的紅色楓葉置于畫(huà)面右下角。背景是一片開(kāi)闊空曠的米白色畫(huà)布,形成大片可供添加文字的留白。光線從左上角柔和漫射而來(lái)。圖片為正方形構(gòu)圖。(豆包翻譯)
這張照片我仔細(xì)看了原圖,banana的官圖白色畫(huà)布也沒(méi)有出現(xiàn)“Soft, diffused lighting from the top left.”,在圖中,光線唯一的表現(xiàn)方式其實(shí)只有樹(shù)葉的陰影。
示例六
A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads"The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.一幅漫畫(huà)單格,采用粗獷的黑色電影藝術(shù)風(fēng)格,以高對(duì)比度的黑白墨水繪制。前景中,一名穿風(fēng)衣的偵探站在一盞閃爍的街燈下,雨水浸濕了他的肩頭。背景里,一家荒涼酒吧的霓虹燈招牌倒映在水洼中。頂部的說(shuō)明框?qū)懼骸斑@座城市藏不住秘密。” 光線強(qiáng)烈,營(yíng)造出戲劇化的陰郁氛圍。畫(huà)面為橫版構(gòu)圖。(豆包翻譯)
雖然在谷歌官方的prompt提示詞示例里,的確是有“l(fā)anscape”和“荒涼酒吧倒影在水中”的要求,但示例卻沒(méi)有出現(xiàn)。而且Banana的光源也遠(yuǎn)談不上漫畫(huà)中“harsh”的要求。
Banana的構(gòu)圖更幽深,有藝術(shù)氣息,像電影的海報(bào);但 Seedream對(duì)prompt的還原度更高,像電影里一段劇情開(kāi)始的第一幀。
整體來(lái)看,nano banana 和 Seedream4.0的效果各有千秋。
Nano banana像一個(gè)很有自己頭腦的藝術(shù)生,它似乎會(huì)選擇性地忘記一些指令,來(lái)達(dá)成一個(gè)在它看來(lái)可能更美的構(gòu)圖。但Seedream4.0則會(huì)認(rèn)認(rèn)真真完成prompt里的所有指令,完成度明顯更好。
而且這還是在英文語(yǔ)境下,豆包的語(yǔ)義理解有可能會(huì)吃虧的情況下完成的。更不用說(shuō),以上都是谷歌的官圖,而我只是拿內(nèi)測(cè)版自己跑的圖。
在審美方面,Seedream4.0的成像效果明顯更加真實(shí),有時(shí)甚至能達(dá)到讓人愣一下神,懷疑這究竟是不是AI生成的程度。而Nano banana的性能雖然強(qiáng)大,但依然有一種AI式的精致感,仿佛畫(huà)面抹上了一層AI的亮油。
結(jié)語(yǔ)
很多人將nano banana稱(chēng)之為生圖界的ChatGPT3.5時(shí)刻。
因?yàn)檫^(guò)去模型只能生成一些天馬行空的東西,但由于缺乏一致性,很難凝聚成有效的生產(chǎn)力。用戶(hù)花費(fèi)大量的token,才能撞出幾張有用的,最后生成一堆廢圖,費(fèi)電費(fèi)算力。
但Seedream4.0和nano banana這樣生圖模型,做到了精準(zhǔn)指令編輯、高度特征保持和深度意圖理解,不僅大大降低了普通用戶(hù)使用的門(mén)檻,也會(huì)極大提升創(chuàng)意人士的使用效率。
你可能也看出來(lái)了:相比于生成,我在使用Seedream4.0最快樂(lè)的時(shí)候永遠(yuǎn)是改圖。
因?yàn)樽層脩?hù)在照片上進(jìn)行修改,其實(shí)永遠(yuǎn)更符合人類(lèi)對(duì)空間和視覺(jué)的直覺(jué)的。
比如,我們想象一個(gè)阿拉丁神燈、一個(gè)無(wú)所謂不能的魔法師,它可以在這個(gè)世界里變出任何怪誕驚奇的玩意兒。但我們感受到“驚奇”的前提,首先是我們腳下的世界或者我們眼前的人是穩(wěn)定的。有了一個(gè)注意力的錨點(diǎn),再去添加和改變新的元素,這才會(huì)有魔術(shù)師的視覺(jué)效果。
因此,在生圖領(lǐng)域,Seedream4.0和nano banana絕對(duì)是劃時(shí)代的產(chǎn)品,肯定會(huì)引發(fā)創(chuàng)意行業(yè)的新革命。
而且人與AI的關(guān)系也不再是博弈,而是合作。人的創(chuàng)意落地門(mén)檻會(huì)更低,一個(gè)好的想法、一個(gè)轉(zhuǎn)瞬即逝記錄下來(lái)的細(xì)節(jié),都可以被AI放大成一個(gè)作品。
這里唯一的區(qū)別是,從GPT3.5出現(xiàn),到DeepSeek V3,我們花了兩年時(shí)間。但從nano banana正式發(fā)布,到Seedream4.0上線,總計(jì)只有20天。
而且如前文所述,從許多體驗(yàn)和生圖效果上,Seedream4.0的體驗(yàn)其實(shí)比nano banana還要完美。
比如,在交互上,Seedream4.0表現(xiàn)得更加用戶(hù)友好。
這次官方內(nèi)測(cè)的平臺(tái)是豆包。有時(shí)用戶(hù)輸入一些非常簡(jiǎn)單的prompt時(shí),豆包會(huì)主動(dòng)幫助補(bǔ)齊一些要求,比如“保持某某其他元素保持不變”、“保持原比例”;如果你故意輸入一些倒裝句,豆包也會(huì)在生圖時(shí)將句子改成規(guī)范的表達(dá);如果你用模糊指向的詞語(yǔ)描述prompt,豆包也會(huì)在轉(zhuǎn)述時(shí)使用更加準(zhǔn)確的表達(dá)。
所以在拿豆包與Seedream4.0交互時(shí),會(huì)時(shí)刻感覺(jué)到有一個(gè)小助手在邊上,幫你優(yōu)化向模型傳達(dá)的指令。用戶(hù)不用有任何的“prompt羞恥癥”,擔(dān)心自己的prompt不夠好,而導(dǎo)致效果不好——可以說(shuō)是非常“vibe”了。
此外,Seedream4.0在畫(huà)面生成的語(yǔ)言遵從能力也更強(qiáng),也展現(xiàn)了驚人的世界理解與預(yù)測(cè)能力。
它不會(huì)放過(guò)一段冗長(zhǎng)prompt中的任何一個(gè)內(nèi)容,光線變化一定帶來(lái)畫(huà)面漫反射與影子的變化,有倒影就一定會(huì)出現(xiàn)倒影,提出了光線的方向就一定會(huì)呈現(xiàn)。
當(dāng) AI 真的可以See Dream了,人與夢(mèng)也就更近了。
如果Dream是人人都有的,那么人人也都可以成為創(chuàng)意者。
(本文來(lái)源:日照新聞網(wǎng)。本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。對(duì)文章事實(shí)有疑問(wèn),請(qǐng)與有關(guān)方核實(shí)或與本網(wǎng)聯(lián)系。文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。)