GPT Image 2.0 so với Nano Banana 2: So sánh hình ảnh thực tế và bài học về prompt

Thg 04 22, 2026

GPT Image 2.0 so với Nano Banana 2: So sánh hình ảnh thực tế và bài học về prompt

Trong hai ngày qua, tôi đã thu thập một loạt so sánh hình ảnh song song giữa GPT Image 2.0 và Nano Banana 2 trên X. Thay vì tập trung vào các tuyên bố của mô hình, tôi muốn xem xét kết quả thực tế: với cùng một prompt, mô hình nào trông thực tế hơn, có thể sử dụng được hơn và thuyết phục hơn ngay từ cái nhìn đầu tiên?

Trong các ghi chú kiểm tra gốc, thiết lập nhất quán: cùng một prompt, và GPT được hiển thị trước trong khi Nano Banana 2 được hiển thị thứ hai.


Phản hồi thực tế nói gì

Phản hồi lặp đi lặp lại mạnh mẽ nhất là GPT Image 2.0 trông tốt hơn về tổng thể, đặc biệt về màu sắc và tính chân thực. Trong một so sánh chân dung, ghi chú viết:

"Màu của GPT 2 tốt hơn nhiều theo ý kiến của tôi. Nó trông thật thực sự so với Nano Banana 2."

Đồng thời, tài liệu giữ lại một sắc thái quan trọng:

"Tuy nhiên, Nano Banana 2 đã nắm bắt được nhiều chi tiết chính xác 1:1 hơn."


Trường hợp 1: Prompt chân dung phố đêm

Một trong những ví dụ rõ ràng nhất là prompt chân dung phố đêm: một phụ nữ trẻ ngồi bên ngoài một nhà hàng nhỏ trong thành phố, mặc áo tank top trắng chồng lên áo ngực ren đen, với đèn flash trực tiếp, độ sâu trường ảnh nông, hạt giống phim và ánh đèn neon phản chiếu trong nền.

Prompt này hoạt động vì nó làm nhiều hơn là mô tả một chủ thể. Nó cũng xác định phương pháp chiếu sáng, môi trường, cảm giác máy ảnh và tâm trạng. Sự kết hợp đó cung cấp cho mô hình một logic hình ảnh đầy đủ hơn để tuân theo.

Prompt:

A candid nighttime street portrait of a young woman sitting casually on a woven café chair outside a small urban restaurant... direct flash... medium shot, shallow depth of field, film-like grain, flash photography aesthetic, raw and unfiltered mood.

So sánh chân dung phố đêm


Trường hợp 2: Prompt chân dung glamour

Một ví dụ hữu ích khác là chân dung glamour cao cấp: mái tóc đen dài uốn sóng, mắt xanh nhạt, trang điểm bóng bẩy, áo cổ yếm nâu sẫm, trang sức bạc, khung cảnh sân hiên buổi tối và ánh vàng ấm áp từ đèn gần đó.

Loại prompt này rất cụ thể về phong cách làm đẹp, phụ kiện, bố cục và nhiệt độ ánh sáng. Đây là lời nhắc nhở tốt rằng các prompt chân dung trở nên ổn định hơn khi chúng bao gồm cả chi tiết ở cấp độ khuôn mặt lẫn ngữ cảnh ở cấp độ cảnh.

So sánh chân dung glamour


Các trường hợp phức tạp: Nơi khoảng cách trở nên rõ ràng hơn

Tài liệu cũng bao gồm một so sánh rộng hơn trên năm trường hợp phức tạp hơn và tóm tắt rất trực tiếp: "GPT Image 2 Chiến thắng Tuyệt đối!" Nó thêm rằng kết quả "hoàn toàn rõ ràng" và lưu ý rằng Nano Banana 2 vẫn là phiên bản được tối ưu hóa, không phải đường cơ sở thô.

Điều đó quan trọng vì các prompt phức tạp có xu hướng tiết lộ mức độ xử lý tốt của mô hình với nhiều ràng buộc cùng một lúc: chủ thể, hành động, phối cảnh, ánh sáng, phong cách và bầu không khí.


Mẫu prompt có thể tái sử dụng

Qua các ví dụ này, một mẫu liên tục xuất hiện:

Chủ thể + tư thế hoặc hành động + chi tiết trang phục + cảnh + ánh sáng + ngôn ngữ máy ảnh + kết cấu hoặc tâm trạng.

Đối với các nhà sáng tạo hình ảnh, đây có lẽ là bài học thực tế nhất từ toàn bộ so sánh. Các prompt mạnh không chỉ về những gì có trong khung — chúng cũng nói về cách khung đó nên cảm thấy như thế nào.

Ví dụ prompt:

A photorealistic capture of chaotic youth frozen in time, featuring a beautiful Russian woman running frantically with a slice of toast in her mouth. She is wearing a perfect, elegant dress that flows with her movement. The composition is a dramatic low angle worm's-eye view, emphasizing the vastness of the clear cobalt blue sky and the geometric framing of intersecting power lines above. The lighting simulates hard sunlight at noon, creating crisp, defined shadows on the subject. The image utilizes a Fujifilm Classic Negative aesthetic, adding a layer of nostalgic texture and high-fidelity realism.

Kết quả prompt nhiều chuyển động


So sánh này tiết lộ nhiều hơn chỉ là khoảng cách giữa hai mô hình — nó làm nổi bật cấu trúc prompt ảnh hưởng đến chất lượng đầu ra như thế nào.

  • GPT Image 2.0 có lợi thế rõ ràng về màu sắc và tính chân thực tổng thể
  • Nano Banana 2 thực hiện chính xác hơn trong việc giữ lại chi tiết
  • Khoảng cách thực sự xuất hiện trong các cảnh phức tạp với nhiều ràng buộc đồng thời

Dù bạn sử dụng mô hình nào, cấu trúc prompt của bạn càng hoàn chỉnh thì kết quả của bạn càng nhất quán.

nanobanana.net