چگونه با هوش مصنوعی تصاویر بهتر و حرفه‌ای‌تر بسازیم؟

از وقتی قابلیت‌های تصویرسازی دو هوش مصنوعی «گوگل جمنای» و «چت جی‌پی‌تی» به شکل چشمگیری ارتقا پیدا کرده، خیلی‌ها اکثر کارهای مربوط به ساخت و ادیت تصویر را به هوش مصنوعی واگذار می‌کنند. تجربه نشان داده که این مدل‌ها دائما در تصویرسازی ماهرتر می‌شوند و درخواست‌هایمان را دقیق‌تر درک می‌کنند. اما در نهایت همه‌چیز به دستورالعمل یا پرامپتی بستگی دارد که برای این مدل‌ها می‌نویسید.

اشتباه اکثر ما این است که به توصیف‌های ساده بسنده می‌کنیم. این روش در بهترین حالت، به یک خروجی معمولی و تکراری منتهی می‌شود. اگر عکس‌های بهتری می‌خواهید، باید خیلی دقیق‌تر درخواست کنید. برای مثال خودِ گوگل یک فرمول طلایی و بسیار ساده برای تصویرسازی با هوش مصنوعی جمنای پیشنهاد می‌دهد.

این شرکت می‌گوید برای اینکه بهترین تصاویر را با جمنای (و یا هر هوش مصنوعی دیگری) بسازید، لازم است داستان، سوژه و سبک را مشخص کنید. یعنی همیشه به این سه سوال در پرامپت خود پاسخ دهید:

چه کسی یا چه چیزی در تصویر است؟
قاب تصویر چگونه بسته شده است؟
و چه اتفاقی در حال رخ دادن است؟

از پرامپت‌های ساده تا کارگردانی خلاقانه

بیشتر ما کار را با یک پرامپت ساده و سرراست شروع می‌کنیم. مثلاً می‌نویسیم:

«یک گربه‌ی نارنجی پشمالو که در حال بازی با توپ است، به سبک نقاشی آبرنگ.»

تصویر ساخته‌شده با هوش مصنوعی از یک گربه نارنجی در حال بازی با کاموا به سبک آبرنگ

این خروجی بد نیست، اما کلیشه‌ای و تکراری به نظر می‌رسد. برای حرفه‌ای‌تر شدن، باید لایه‌های جدیدی مثل کادربندی، نورپردازی و زاویه‌ی دوربین را به پرامپت خود اضافه کنید. نیازی نیست هر بار همه‌ی این موارد را بنویسید؛ اضافه‌ کردن حتی یک یا دو مورد هم تفاوت چشمگیری ایجاد می‌کند. در ادامه، سه ترفند کاربردی را با هم مرور می‌کنیم.

گام اول: ابعاد تصویر را مهندسی کنید

مشخص ‌کردن ابعاد، ساده‌ترین کاری است که می‌توانید برای بهبود تصویر انجام دهید. اگر «نسبت ابعاد تصویر» (Aspect Ratio) را مشخص نکنید، کادربندی را کاملاً بر عهده‌ی هوش مصنوعی گذاشته‌اید و خروجی شما معمولاً یک عکس مربعی‌شکل (۱:۱) خواهد بود. اضافه‌ کردن ابعاد، خروجی بهتری به شما می‌دهد.
بسته به سوژه مد نظرتان، از نسبت‌های ابعاد زیر برای تصاویر استفاده کنید:

نسبت ابعاد ۱۶:۹ (افقی – Landscape) برای منظره و پس‌زمینه‌ی مانیتور و ویدیوها
نسبت ابعاد ۴:۵ یا ۹:۱۶ (عمودی – Portrait) برای عکس‌های پرتره، استوری و پست‌های شبکه‌های اجتماعی
نسبت ابعاد ۳:۴ یا ۲:۳ برای تنوع در کادربندی‌های عمودی

از آنجا که جمنای و چت جی‌پی‌تی با زبان طبیعی کار می‌کند، کافیست در انتهای پرامپت خود درخواست کنید:

«تصویر را به صورت افقی با نسبت ابعاد ۱۶:۹ بساز.»

یا اگر پرامپت انگلیسی می‌نویسید، از عبارت زیر استفاده کنید:

«in 16:9 aspect ratio»

همچنین اگر دنبال یک یک طراحی خاص (مانند پوستر یا بنر سایت) هستید، صراحتاً «کاربرد تصویر» را در فرمان خود بنویسید تا جمنای ترکیب‌بندی را بر همان اساس تنظیم کند.

گام دوم: مانند یک عکاس حرفه‌ای نورپردازی کنید

در این مرحله، پرامپت‌نویسی جذاب‌تر می‌شود. به‌جای اینکه فقط سوژه را توصیف کنید، به هوش مصنوعی بگویید این سوژه در چه فضایی و با چه نوری باید ثبت شود. نورپردازی در خلق حس‌ و حالِ فضا و واقعی بودن تصویر تاثیر زیادی دارد. جملاتی شبیه به این را امتحان کنید:

«نور پس‌زمینه (بک‌لایت / backlight) در زمان غروب خورشید که سایه‌های بلندی روی زمین ایجاد کرده است.»

یا می‌توانید چنین پرامپتی بنویسید:

«نورپردازی کلاسیک استودیویی با کنتراست (تضاد) عمیق میان تاریکی و روشنی تصویر.»

به این نمونه‌ی کامل و حرفه‌ای دقت کنید:

«یک پرتره‌ی کلوزآپ (نمای بسته) از پیرمردی با پوست آفتاب‌سوخته و چروکیده، نورپردازی کلاسیک با سایه‌روشن‌های عمیق، نیمی از صورت در سایه‌ی غلیظ، نور حاشیه‌ای تند که به موهای نقره‌ای‌رنگ تابیده است، عکس‌برداری با لنز ۸۵ میلی‌متری، بافت‌های پوست با جزئیات زیاد، ابعاد تصویر ۱۶:۹»

اگر ترجیح می‌دهید به زبان انگلیسی پرامپت بنویسید، می‌توانید از چنین متنی استفاده کنید:

A close-up portrait of an elderly man with weathered skin, Rembrandt lighting with a deep chiaroscuro effect, one side of the face in heavy shadow, sharp rim light catching the silver hair, 8k resolution, highly detailed textures, aspect ratio in 16:9

دقت به جزئیات در پرامپت‌نویسی، دقیقاً همان مرز باریک میان یک عکس مصنوعی و تصویری است که انگار با مهارت دست یک عکاس و نورپرداز حرفه‌ای ثبت شده است.

گام سوم: متن‌ داخل تصویر را مشخص کنید

در نسخه‌های جدید ابزارهای هوش مصنوعی، قابلیت نوشتن متن داخل تصاویر بسیار پیشرفت کرده است. با این حال، هرگز نباید به یک دستور کلی مانند «یک متن به تصویر اضافه کن» اکتفا کنید. برای رسیدن به بهترین نتیجه، متن را با در نظر گرفتنِ سه پرسش زیر توصیف کنید:

متن شما دقیقاً چیست؟
در کجای کادر قرار می‌گیرد؟
ظاهر آن (نوع فونت، رنگ و اندازه) چگونه است؟

ابزارهای تصویرسازی فعلی، هنوز اندکی در نوشتن متن‌های فارسی ضعف دارند و گاهی حروف را درهم‌ریخته و ناخوانا تولید می‌کنند، اما ۹۰ درصد اوقات متون مورد نظرتان بدون هیچ ایرادی درون عکس قرار می‌گیرد. پیشنهاد می‌شود برای خروجی بهتر، متون فارسی یا انگلیسی مد نظرتان را در پرامپت، داخل علامت نقل‌قول انگلیسی (“ “) قرار دهید. با این کار هوش مصنوعی دقت بیشتری به صحت متون نشان می‌دهد.

به نمونه پرامپت زیر دقت کنید:

«نمایی از بالا از یک تی‌شرت نخی مشکی باکیفیت که روی پس‌زمینه‌ای از بتن خاکستری قرار گرفته است. کلمه‌ی “URBAN EXPLORER” با فونت انگلیسی خوانا، ضخیم و به رنگ سفید، دقیقاً وسط تی‌شرت چاپ شده است. نورپردازی استودیویی و ملایم از بالا به پایین تابیده و سایه‌های ظریفی برای نمایش بافت پارچه ایجاد کرده است. فضای تصویر مینیمال و ساده با نسبت ابعاد ۱۶:۹ است.»

اگر ترجیح می‌دهید پرامپت انگلیسی بنویسید، از متن زیر استفاده کنید:

A premium black cotton T-shirt flat-lay on a grey concrete background. The headline “URBAN EXPLORER” is rendered in a bold, white, sans-serif font centered on the chest. Soft top-down studio lighting with subtle shadows to show fabric texture. High resolution, minimalist aesthetic, 16:9

پیشنهاد می‌کنیم با این چند ترفند ساده کمی آزمون‌ و خطا کنید تا ببینید دقت و کیفیت خروجی تصاویر شما تا چه اندازه ارتقا پیدا می‌کند.

در آخر: یک ترفند پرامپت‌نویسی برای فارسی‌زبانان

هنگام کار با چت جی‌پی‌تی و جمنای، معمولاً با پرامپت انگلیسی نتیجه‌ی بهتر و دقیق‌تری دریافت خواهید کرد. ولی اگر در نوشتن پرامپت‌های انگلیسی مهارت زیادی ندارید یا کلمات تخصصی عکاسی را نمی‌شناسید، اصلاً نگران نباشید؛ از خودِ جمنای یا چت جی‌پی‌تی کمک بگیرید.

ابتدا به فارسی به آن‌ها بگویید:

«می‌خوام یک عکس با هوش مصنوعی بسازم. ایده‌ی من اینه: [ایده‌ی خود را به زبان ساده بنویسید، مثلاً یک ماشین در کویر]. لطفاً این ایده را به یک پرامپت حرفه‌ای و پرجزئیاتِ انگلیسی برای تولید تصویر تبدیل کن و در آن، نورپردازی، نوع لنز دوربین و جزئیات محیط را لحاظ کن».

سپس همان متن انگلیسی‌ دریافتی را کپی کنید و برای خلق تصویر به خودشان یا میدجرنی یا هر ابزار دیگری بدهید. تفاوت خروجی‌ها شما را شگفت‌زده خواهد کرد!