GPT Image 2.0 vs Nano Banana 2:真實對比後的生圖結論與提示詞拆解
這兩天,我在 X 上集中看了一批 GPT Image 2.0 和 Nano Banana 2 的對比生圖。比起只看模型介紹,我更在意真實出圖效果:同樣的提示詞下,哪一邊更像真圖,哪一邊更適合直接拿來用。
這批案例的測試方式相對統一:提示詞統一,且對比時 GPT 在前、Nano Banana 2 在後。
真實回饋裡最明顯的差異
文件裡最突出的回饋,是 GPT Image 2.0 在整體觀感上更佔優勢,尤其是色彩和真實感。在其中一組人像對比中,原話寫得非常明確:
"GPT 2 color is much better imo. It genuinely looks real relative to Nano Banana 2."
但這份對比也保留了一個很重要的細節:同一段回饋裡也寫到:
"Nano Banana 2 did however capture more of the exact 1:1 detail."

案例 1:夜晚街頭人像提示詞
其中一組很典型的案例,是夜晚街頭人像:年輕女性、小餐廳外、編織椅、白色吊帶疊穿黑色蕾絲內搭、牛仔褲、直閃、淺景深、底片顆粒和霓虹反光。
這個提示詞之所以有效,不只是因為它寫清了人物長什麼樣,而是它同時寫清了光線、環境、鏡頭感和情緒氛圍。對模型來說,這樣的提示詞更像是在描述一整張圖,而不是只描述一個主體。
提示詞摘錄:
A candid nighttime street portrait of a young woman sitting casually on a woven café chair outside a small urban restaurant... direct flash... medium shot, shallow depth of field, film-like grain, flash photography aesthetic, raw and unfiltered mood.
案例 2:高精緻度人像提示詞
另一組案例則更偏向高精緻度人像:長捲黑髮、淺藍色眼睛、上揚眼線、深棕色抹胸、銀色首飾、傍晚露台和暖金色人工光。
這類提示詞的特點是足夠具體,尤其是在妝容、飾品、構圖和光線溫度上寫得很完整,因此更適合測試模型對精緻人像和高級自拍感的處理能力。

複雜案例:差距更容易被看見
文件裡還總結了 5 個更複雜的案例,結論寫得很直接:"GPT Image 2 Wins Hands Down!" 同時還提到結果「非常明確」,並補充說 Nano Banana 2 已經是經過優化的版本,而不是原始輸出。
這點很有參考價值。因為真正能拉開模型差距的,往往不是簡單的人像,而是同時包含人物、動作、透視、光線、風格和氛圍的複雜場景。

一個可複用的提示詞結構
結合這些案例,可以把提示詞總結成一個更容易複用的結構:
主體 + 姿態或動作 + 穿搭細節 + 場景 + 燈光 + 鏡頭語言 + 質感或氛圍。
對做生圖的人來說,這可能是整份對比裡最有價值的部分。好的提示詞,不只是寫畫面裡有什麼,還要寫清這張圖應該呈現出什麼樣的感覺。
示例提示詞:
A photorealistic capture of chaotic youth frozen in time, featuring a beautiful Russian woman running frantically with a slice of toast in her mouth. She is wearing a perfect, elegant dress that flows with her movement. The composition is a dramatic low angle worm's-eye view, emphasizing the vastness of the clear cobalt blue sky and the geometric framing of intersecting power lines above. The lighting simulates hard sunlight at noon, creating crisp, defined shadows on the subject. The image utilizes a Fujifilm Classic Negative aesthetic, adding a layer of nostalgic texture and high-fidelity realism.
這次對比揭示的不只是兩個模型的差距,更是提示詞寫法對出圖品質的影響。
- GPT Image 2.0 在色彩和整體真實感上更有優勢
- Nano Banana 2 在細節還原上表現更準確
- 真正拉開差距的,是複雜場景下的綜合處理能力
無論用哪個模型,提示詞的結構越完整,出圖越穩定。
