GPT Image 2.0 เทียบกับ Nano Banana 2: การเปรียบเทียบภาพจริงและบทเรียนจาก Prompt
ในช่วงสองวันที่ผ่านมา ฉันได้รวบรวมการเปรียบเทียบภาพแบบเคียงข้างกันระหว่าง GPT Image 2.0 และ Nano Banana 2 บน X แทนที่จะมุ่งเน้นไปที่การอ้างสิทธิ์ของโมเดล ฉันต้องการดูผลลัพธ์จริง: ภายใต้ prompt เดียวกัน โมเดลใดรู้สึกสมจริงกว่า ใช้งานได้มากกว่า และน่าเชื่อถือมากกว่าเมื่อมองแวบแรก?
ในบันทึกการทดสอบดั้งเดิม การตั้งค่ามีความสม่ำเสมอ: prompt เดียวกัน และ GPT แสดงก่อนในขณะที่ Nano Banana 2 แสดงเป็นลำดับที่สอง
ข้อเสนอแนะจากความเป็นจริงบอกว่าอะไร
ข้อเสนอแนะที่แข็งแกร่งและซ้ำกันมากที่สุดคือ GPT Image 2.0 ดูดีกว่าในการนำเสนอโดยรวม โดยเฉพาะในด้านสีสันและความสมจริง ในการเปรียบเทียบภาพบุคคลครั้งหนึ่ง บันทึกระบุว่า:
"สีของ GPT 2 ดีกว่ามากในความเห็นของฉัน มันดูสมจริงจริง ๆ เมื่อเทียบกับ Nano Banana 2"
ในขณะเดียวกัน เอกสารยังคงรักษาความแตกต่างที่สำคัญ:
"อย่างไรก็ตาม Nano Banana 2 จับรายละเอียดที่แน่นอน 1:1 ได้มากกว่า"

กรณีที่ 1: Prompt ภาพบุคคลบนถนนยามค่ำคืน
ตัวอย่างที่ชัดเจนที่สุดอย่างหนึ่งคือ prompt ภาพบุคคลบนถนนยามค่ำคืน: หญิงสาวนั่งอยู่นอกร้านอาหารเล็ก ๆ ในเมือง สวมเสื้อกล้ามสีขาวทับบราสีดำลูกไม้ มีแสงแฟลชตรง ความลึกของสนามตื้น เมล็ดพืชคล้ายฟิล์ม และแสงสะท้อนนีออนในพื้นหลัง
Prompt นี้ใช้งานได้เพราะทำมากกว่าแค่อธิบายหัวข้อ มันยังกำหนดวิธีการให้แสง สภาพแวดล้อม ความรู้สึกของกล้อง และอารมณ์ ส่วนผสมนั้นให้ตรรกะภาพที่สมบูรณ์กว่าแก่โมเดล
Prompt:
A candid nighttime street portrait of a young woman sitting casually on a woven café chair outside a small urban restaurant... direct flash... medium shot, shallow depth of field, film-like grain, flash photography aesthetic, raw and unfiltered mood.
กรณีที่ 2: Prompt ภาพบุคคลสไตล์แกลมเมอร์
อีกตัวอย่างที่มีประโยชน์คือภาพบุคคลแกลมเมอร์สูง: ผมดำยาวหยักศกเป็นลอน ดวงตาสีฟ้าอ่อน เครื่องสำอางที่ขัดเงา เสื้อบนสีน้ำตาลเข้มแบบไม่มีสาย เครื่องประดับเงิน บรรยากาศระเบียงยามเย็น และแสงทองอุ่นจากโคมไฟใกล้เคียง
Prompt ประเภทนี้มีความเฉพาะเจาะจงสูงเกี่ยวกับการแต่งหน้าสวยงาม เครื่องประดับ การจัดองค์ประกอบ และอุณหภูมิของแสง เป็นการเตือนที่ดีว่า prompt ภาพบุคคลมีความเสถียรมากขึ้นเมื่อรวมถึงทั้งรายละเอียดระดับใบหน้าและบริบทระดับฉาก

กรณีที่ซับซ้อน: ที่ซึ่งช่องว่างชัดเจนขึ้น
เอกสารยังรวมถึงการเปรียบเทียบที่กว้างขึ้นในห้ากรณีที่ซับซ้อนกว่าและสรุปได้ตรงมากว่า: "GPT Image 2 ชนะอย่างเด็ดขาด!" เพิ่มเติมว่าผลลัพธ์ "ชัดเจนอย่างแจ่มแจ้ง" และตั้งข้อสังเกตว่า Nano Banana 2 ยังคงเป็นเวอร์ชันที่ปรับให้เหมาะสม ไม่ใช่พื้นฐานดิบ
สิ่งนั้นสำคัญเพราะ prompt ที่ซับซ้อนมักจะเปิดเผยว่าโมเดลจัดการกับข้อจำกัดหลายอย่างพร้อมกันได้ดีเพียงใด: หัวข้อ การกระทำ มุมมอง การให้แสง สไตล์ และบรรยากาศ

รูปแบบ Prompt ที่นำไปใช้ซ้ำได้
จากตัวอย่างเหล่านี้ รูปแบบหนึ่งปรากฏขึ้นซ้ำ ๆ:
หัวข้อ + ท่าทางหรือการกระทำ + รายละเอียดเสื้อผ้า + ฉาก + การให้แสง + ภาษากล้อง + พื้นผิวหรืออารมณ์
สำหรับผู้สร้างภาพ นี่อาจเป็นบทเรียนที่ปฏิบัติได้มากที่สุดจากการเปรียบเทียบทั้งหมด Prompt ที่แข็งแกร่งไม่ใช่แค่เกี่ยวกับสิ่งที่อยู่ในเฟรม — แต่ยังเกี่ยวกับความรู้สึกของเฟรมนั้นด้วย
ตัวอย่าง prompt:
A photorealistic capture of chaotic youth frozen in time, featuring a beautiful Russian woman running frantically with a slice of toast in her mouth. She is wearing a perfect, elegant dress that flows with her movement. The composition is a dramatic low angle worm's-eye view, emphasizing the vastness of the clear cobalt blue sky and the geometric framing of intersecting power lines above. The lighting simulates hard sunlight at noon, creating crisp, defined shadows on the subject. The image utilizes a Fujifilm Classic Negative aesthetic, adding a layer of nostalgic texture and high-fidelity realism.
การเปรียบเทียบนี้เปิดเผยมากกว่าแค่ช่องว่างระหว่างสองโมเดล — มันเน้นให้เห็นว่าโครงสร้าง prompt ส่งผลต่อคุณภาพผลลัพธ์มากเพียงใด
- GPT Image 2.0 มีข้อได้เปรียบที่ชัดเจนในด้านสีสันและความสมจริงโดยรวม
- Nano Banana 2 ทำงานได้แม่นยำกว่าในการรักษารายละเอียด
- ช่องว่างที่แท้จริงปรากฏในฉากที่ซับซ้อนที่มีข้อจำกัดพร้อมกันหลายประการ
ไม่ว่าคุณจะใช้โมเดลใด โครงสร้าง prompt ที่สมบูรณ์มากเท่าไร ผลลัพธ์ของคุณก็จะสม่ำเสมอมากขึ้นเท่านั้น
