هوش مصنوعی Stable Diffusion به زبان ساده، یک مدل ai مولد و متنباز (Open-Source) است که به شما اجازه میدهد تا توصیفات متنی خود (که به آنها پرامپت یا Prompt گفته میشود) را به تصاویر هنری و واقعگرایانه خیرهکننده تبدیل کنید. این ابزار قدرتمند، مرز بین تخیل و واقعیت را از بین برده و به هرکسی -صرفنظر از هنر و جایگاه او- قدرت ساخت تصویر با هوش مصنوعی را میدهد.
برخلاف بسیاری از مدلهای مولد تصویر دیگر که فقط بهصورت آنلاین و با محدودیت در دسترس هستند، مدل Stable Diffusion به شما اجازه میدهد تا آن را روی کامپیوتر شخصی یا سرور ابری خود نصب کرده و کنترل کاملی بر تمام جزئیات فرایند تولید تصویر داشته باشید.
در این مقاله بهصورت کامل به آموزش Stable Diffusion میپردازیم، با کاربردهای شگفتانگیز آن آشنا میشویم و به این سؤال پاسخ میدهیم که چطور با Stable Diffusion عکس بسازیم؟
فهرست مطالب
وجه تفاوت هوش مصنوعی Stable Diffusion با رقبا
شاید مدلهای متن به تصویر دیگری هم وجود داشته باشند، اما چند ویژگی کلیدی، مدل Stable Diffusion را به یک پدیده در دنیای تکنولوژی تبدیل کردهاست:
- متنباز بودن (Open Source): کد اصلی این مدل در دسترس عموم قرار دارد. این یعنی هر کسی میتواند آن را بررسی، بهبود و برای اهداف خود سفارشیسازی کند. این ویژگی باعث شکلگیری یک جامعه کاربری بسیار فعال و خلاق در سراسر جهان شدهاست.
- قابلیت اجرا روی سیستم (Local Execution): برخلاف بسیاری از مدلهای بزرگ که تنها ازطریق APIهای تحت وب قابل استفاده بودند، Stable Diffusion به اندازهای بهینه شدهاست که بتوان آن را روی کامپیوترهای شخصی با کارت گرافیک (GPU) مناسب اجرا کرد. این یعنی کنترل کامل بر فرایند تولید تصویر با AI و عدم وابستگی به پلتفرمهای شخص ثالث.
- انعطافپذیری بالا: کاربرد Stable Diffusion فقط به خلق تصویر از متن محدود نمیشود. این مدل در اموری مانند ویرایش تصویر (Image-to-Image)، ترمیم بخشهای آسیبدیده (Inpainting) و حتی ساخت ویدئوهای کوتاه نیز تواناییهای فوقالعادهای از خود نشان دادهاست.
هوش مصنوعی Stable Diffusion چگونه کار میکند؟
فرایند ساخت عکس در مدل Stable Diffusion را میتوان به ساخت یک مسجمه زیبا از یک سنگ بیشکل تشبیه کرد که در پس آن، یک معماری هوشمندانه به نام «مدل انتشار» یا Diffusion Model قرار دارد. درک کلیات این فرایند به شما کمک میکند تا در آموزش Stable Diffusion و استفاده بهینه از آن موفقتر باشید. بیایید فرایند ساخت تصویر با هوش مصنوعی Stable Diffusion را به دو بخش اصلی تقسیم کنیم.
- مرحله یادگیری (Forward Diffusion): در این مرحله از تولید تصویر با AI، هوش مصنوعی با دیدن میلیونها تصویر، یاد میگیرد که چگونه بهصورت تدریجی به آنها «نویز» یا اختلال اضافه کند تاجاییکه تصویر اولیه به یک فضای نویز خالص و تصادفی تبدیل شود. این کار مانند آن است که یک عکس واضح را مرحلهبهمرحله برفکی کنیم تا چیزی از آن باقی نماند. هدف این است که مدل، مسیر «تخریب» را به خوبی یاد بگیرد.
- مرحله خلق (Reverse Diffusion): اینجا جادوی اصلی اتفاق میافتد. شما با نوشتن یک پرامپت به مدل میگویید چه چیزی میخواهید. هوش مصنوعی Stable Diffusion از یک تصویر کاملاً نویزی شروع میکند و با استفاده از دانشی که در مرحله قبل کسب کرده و با هدایت پرامپت شما، فرایند را معکوس انجام میدهد. یعنی مرحلهبهمرحله نویز را حذف میکند تا در نهایت تصویری واضح و دقیق که با متن شما مطابقت دارد پدیدار شود. این فرایند حذف نویز، یک بازسازی فناورانه براساس درک مدل از جهان است.
نقش پرامپت (Prompt) در تبدیل متن به تصویر
پرامپت (Prompt) یا همان فرمان متنی شما، نقشه راهی است که به هوش مصنوعی Stable Diffusion میدهید. پرامپت درواقع مجموعهای از دستورالعملها است که به فرایند حذف نویز جهت میدهد. کیفیت، جزئیات و سبکشناسی پرامپت شما تأثیر مستقیمی بر خروجی نهایی دارد.
- پرامپت ساده: یک گربه (نتیجه: یک تصویر معمولی از یک گربه)
- پرامپت حرفهای: a cute fluffy cat wearing a tiny wizard hat, sitting on a pile of ancient books, detailed digital painting, artstation
(نتیجه: یک نقاشی دیجیتال با جزئیات دقیق از یک گربه پشمالوی بامزه که کلاه جادوگری کوچکی بر سر دارد و روی تودهای از کتابهای قدیمی نشسته است)

بنابراین، یادگیری نحوه نوشتن پرامپتهای مؤثر، یکی از مهمترین مهارتها در آموزش Stable Diffusion است که در ادامه مقاله بیشتر به آن خواهیم پرداخت.
کاربرد Stable Diffusion (بررسی تواناییهای مدل)

قدرت واقعی هوش مصنوعی Stable Diffusion زمانی آشکار میشود که بدانیم کاربرد Stable Diffusion بسیار فراتر از تبدیل یک جمله به یک عکس ساده است. این ابزار مجموعهای از قابلیتهای شگفتانگیز را در اختیار شما قرار میدهد که هر کدام میتوانند فرآیندهای خلاقانه و فنی شما را متحول کنند. در ادامه به مهمترین آنها نگاهی میاندازیم.
۱- خلق تصویر از متن (Text-to-Image)
این همان قابلیتی است که همه ما مدلهای مولد تصویر را با آن میشناسیم. شما یک ایده را در قالب متن توصیف میکنید و هوش مصنوعی آن را به تصویر میکشد. این قابلیت پایه و اساس ساخت تصویر با هوش مصنوعی است. تنها محدودیت، تخیل شماست.
۲- ویرایش هوشمند با تصویر (Image-to-Image)
در این حالت شما علاوه بر پرامپت متنی، یک تصویر ورودی هم به مدل میدهید. هوش مصنوعی Stable Diffusion از ساختار کلی تصویر شما الگو میگیرد و آن را براساس دستور متنی شما بازآفرینی میکند. برای مثال، میتوانید یک نقاشی ساده از یک منظره بکشید و با پرامپت «a beautiful landscape, photorealistic, 8k»، آن را به یک عکس واقعی و خیرهکننده تبدیل کنید. این تکنیک برای تغییر سبک، لباس یا حتی چهره در تصاویر موجود نیز کاربرد دارد.
۳- ترمیم و گسترش تصاویر (Inpainting & Outpainting)
این یکی از کاربردیترین قابلیتهای هوش مصنوعی Stable Diffusion برای طراحان و عکاسان است.
- Inpainting (ترمیم): فرض کنید در یک عکس عالی، یک شیء ناخواسته وجود دارد. با استفاده از Inpainting، میتوانید آن بخش را ماسک (انتخاب) کنید و از هوش مصنوعی بخواهید آن را با بافتی هماهنگ با محیط اطراف پر کند. نتیجه، یک ویرایش بینقص و طبیعی است. برای اطلاعات بیشتر درباره این تکنیک میتوانید راهنمای تخصصی Inpainting را مطالعه کنید.
- Outpainting (گسترش): آیا تابهحال خواستهاید ببینید خارج از کادر یک عکس معروف چه خبر است؟ Outpainting به شما اجازه میدهد ابعاد بوم خود را بزرگتر کنید و از هوش مصنوعی بخواهید تا ادامه تصویر را به شکلی خلاقانه و منطقی نقاشی کند.
۴- آفرینش سبکهای هنری
زیبایی تولید تصویر با AI در این است که شما کارگردان هنری پروژه هستید. با اضافه کردن چند کلمه کلیدی به پرامپت خود، میتوانید سبک بصری خروجی را بهطور کامل کنترل کنید. این قابلیت به شما اجازه میدهد تا برای یک مفهوم واحد، خروجیهای کاملاً متفاوتی از نظر هنری خلق کنید.
| سبک هنری (Artistic Style) | کلیدواژه پیشنهادی برای پرامپت |
|---|---|
| فوتورئالیسم | photorealistic, 8k, sharp focus, DSLR |
| نقاشی رنگ روغن | oil painting, masterpiece, by Van Gogh |
| انیمه و مانگا | anime style, manga, studio ghibli |
| هنر دیجیتال | digital art, artstation, concept art |
| مدل سهبعدی | 3d render, unreal engine, octane render |
| مینیمالیسم | minimalist, flat design, vector art |
چگونه از Stable Diffusion استفاده کنیم؟ (معرفی ابزارها)
حالا که با قابلیتهای هیجانانگیز این مدل آشنا شدید، سؤال بعدی این است: از کجا شروع کنیم؟ خوشبختانه راههای مختلفی برای استفاده از Stable Diffusion وجود دارد که بسته به نیاز، سطح دانش فنی و منابع سختافزاری شما، میتوانید یکی را انتخاب کنید.
۱- پلتفرمهای آنلاین و رایگان برای شروع سریع
سادهترین و سریعترین راه برای تجربه هوش مصنوعی Stable Diffusion، استفاده از وبسایتها و پلتفرمهای آنلاینی است که این مدل را در اختیار شما قرار میدهند. این سرویسها نیازی به نصب ندارند و قدرت پردازشی را از سرورهای خودشان تأمین میکنند. این گزینه برای کسانی که میخواهند بدون درگیری با مسائل فنی، صرفاً به ساخت تصویر با هوش مصنوعی بپردازند عالی است.
۲- نصب و راهاندازی روی کامپیوتر شخصی برای حرفهایها
اگر بهدنبال کنترل کامل، حریم خصوصی، عدم محدودیت در تولید و دسترسی به تمام ویژگیهای پیشرفته هستید، نصب Stable Diffusion روی کامپیوتر شخصی بهترین گزینه است. محبوبترین رابط کاربری برای این کار، AUTOMATIC1111 نام دارد که امکانات فوقالعادهای برای مدیریت مدلها، پرامپتها و افزونهها در اختیار شما میگذارد. البته این روش نیازمند یک کارت گرافیک (GPU) قدرتمند است.
مقاله مرتبط: نصب stable diffusion در یک دقیقه + ویدئوی راهنما + دانلود
۳- استفاده از کتابخانههای پایتون برای توسعهدهندگان
توسعهدهندگان و محققانی که میخواهند قابلیتهای تولید تصویر با هوش مصنوعی Stable Diffusion را در نرمافزارها یا پروژههای تحقیقاتی خود ادغام کنند، میتوانند مستقیماً از کتابخانههای پایتون مانند Diffusers از Hugging Face استفاده کنند. این روش حداکثر انعطافپذیری را فراهم میکند اما به دانش برنامهنویسی نیاز دارد.
جدول: مقایسه روشهای استفاده از هوش مصنوعی Stable Diffusion
| روش استفاده | سطح دشواری | نیازمندیها | بهترین گزینه برای… |
|---|---|---|---|
| پلتفرم آنلاین | آسان | فقط مرورگر وب و اینترنت | کاربران تازهکار و تجربه سریع |
| نصب سیستمی (Local) | متوسط | کامپیوتر با GPU قدرتمند | حرفهایها و علاقهمندان به کنترل کامل |
| کتابخانه پایتون | دشوار | دانش برنامهنویسی پایتون | توسعهدهندگان و محققان |
نکات کلیدی برای خلق تصاویر بهتر با هوش مصنوعی Stable Diffusion
یادگیری کار با هوش مصنوعی Stable Diffusion مانند یادگیری یک ساز موسیقی است؛ هر کسی میتواند صدایی تولید کند، اما برای نواختن یک قطعه دلنشین به تکنیک و تمرین نیاز است. تنها چیزی که از تصویر شما یک شاهکار هنری میتواند بسازد پرامپت شما است. این بخش از آموزش Stable Diffusion به شما کمک میکند تا کنترل بیشتری روی خروجیهای خود داشته باشید.
آموزش پرامپتنویسی حرفهای (Prompt Engineering)
پرامپتنویسی یا Prompt Engineering، هنرِ صحبت کردن به زبان هوش مصنوعی است. یک پرامپت خوب، ساختار و جزئیات دارد. مثلاً بهجای نوشتن a cat، سعی کنید یک ساختار چندلایه را دنبال کنید:
- موضوع اصلی (Subject): بخش اصلی پرامپت شما. (مثال: a portrait of a beautiful queen)
- محیط و پسزمینه (Setting): موضوع شما در کجا قرار دارد؟ (مثال: in a futuristic city)
- جزئیات و اصلاحکنندهها (Modifiers): ویژگیهای ظاهری، لباس، حالت و… (مثال: wearing elegant silver armor, intricate details)
- سبک هنری (Art Style): میخواهید خروجی شبیه چه چیزی باشد؟ (مثال: digital painting, concept art, fantasy)
- مشخصات فنی و کیفیت (Technical Details): نورپردازی، زاویه دوربین و کیفیت. (مثال: cinematic lighting, sharp focus, 8k, trending on artstation)
پرامپت نهایی:
a portrait of a beautiful queen in a futuristic city, wearing elegant silver armor, intricate details, digital painting, concept art, fantasy, cinematic lighting, sharp focus, 8k, trending on artstation

قدرت پرامپتهای منفی (Negative Prompts) برای حذف عناصر ناخواسته
همانقدر که گفتنِ «چه چیزی میخواهیم» مهم است، گفتنِ «چه چیزی نمیخواهیم» نیز میتواند در کیفیت نهایی تصویر معجزه کند. پرامپت منفی به شما اجازه میدهد تمام المانهای ناخواسته را از تصویرتان حذف کنید. این یکی از تکنیکهای کلیدی برای حرفهای شدن در ساخت تصویر با هوش مصنوعی است.
برای مثال، مدلهای هوش مصنوعی گاهی در کشیدن دستها یا چهرهها خطا میکنند. شما میتوانید با پرامپت منفی این خطاها را به حداقل برسانید. همانطور که در راهنمای رسمی Stability AI نیز تأکید شده، استفاده هوشمندانه از پرامپت منفی، کلید رسیدن به نتایج بینقص است.
مثال:
- پرامپت اصلی: a close-up photo of a person’s hand
- پرامپت منفی: deformed, extra fingers, blurry, ugly, watermark, text
چرا اجرای Stable Diffusion به کارت گرافیک (GPU) قوی نیاز دارد؟

اجرای هوش مصنوعی Stable Diffusion روی کامپیوتر شخصی، یک فرایند محاسباتی بسیار سنگین است که فشار اصلی آن مستقیماً روی دوش کارت گرافیک (GPU) قرار دارد. دو عامل کلیدی، تفاوت بین یک تجربه خلاقانه و روان با یک انتظار کلافهکننده را رقم میزنند:
۱. حافظه کارت گرافیک (VRAM)
VRAM یا حافظه کارت گرافیک را مانند میز کار یک هنرمند در نظر بگیرید. هرچه مدل هوش مصنوعی پیچیدهتر و ابعاد تصویری که میخواهید بسازید بزرگتر باشد، به میز کار بزرگتری (VRAM بیشتر) نیاز دارید. کمبود VRAM باعث خطاهای out of memory، سرعت بسیار پایین و ناتوانی در ساخت تصاویر باکیفیت میشود.
جدول نیازمندیهای سختافزاری برای اجرای Stable Diffusion براساس راهنمای منتشرشده در AI Arty
| سطح VRAM | تجربه کاربری | مناسب برای… |
|---|---|---|
| ۴ گیگابایت | حداقل مطلق (بسیار کند): تولید تصاویر با ابعاد کوچک، زمان انتظار طولانی، احتمال بالای خطا | صرفاً تست و آشنایی اولیه |
| ۸ گیگابایت | قابل قبول (ورود به دنیای حرفهای): تولید تصاویر با ابعاد استاندارد، سرعت مناسب، امکان استفاده از مدلهای مختلف | کاربران جدی و علاقهمندان |
| ۱۲ گیگابایت | عالی (تجربه روان): تولید سریع تصاویر با کیفیت بالا، آموزش مدلهای شخصی (LoRA)، استفاده همزمان از چند ابزار | کاربران حرفهای و تولیدکنندگان محتوا |
| ۱۶+ گیگابایت | ایدئال(بدون محدودیت): نهایت سرعت، کار با پیچیدهترین مدلها، تولید ویدئو و انیمیشن، کارهای تحقیقاتی | توسعهدهندگان و متخصصان هوش مصنوعی |
۲. سرعت پردازش
تفاوت اصلی بین یک GPU معمولی و یک GPU قدرتمند، در «زمان» است. با یک GPU معمولی، ساخت هر تصویر ممکن است چند دقیقه طول بکشد و هر تغییر در پرامپت بهمعنای یک انتظار طولانی دیگر است. اما با یک GPU قدرتمند، همان تصویر در چند ثانیه آماده میشود و شما میتوانید در یک جریان خلاقانه پیوسته، ایدههای مختلف را به سرعت تست کنید.
اینجاست که این سؤال مطرح میشود: آیا برای دسترسی به این قدرت و سرعت، حتماً باید هزینه گزافی برای خرید یک کارت گرافیک گرانقیمت بپردازیم؟
اجرای هوش مصنوعی Stable Diffusion روی سیستم ضعیف
پاسخ کوتاه، خیر است؛ چون امروزه با فناوری سرور گرافیک ابری (Cloud GPU) میتوانید بهجای خرید یک ابرکامپیوتر، آن را برای مدت زمان مشخصی اجاره میکنید و ازطریق اینترنت به یک کامپیوتر بسیار قدرتمند با جدیدترین کارتهای گرافیک متصل شوید.
برای درک عمیقتر از مفهوم گرافیک ابری و آشنایی بیشتر با قدرت و قابلیتهای آن میتوانید مقالات تکمیلی ما در این مضوع را مطالعه فرمایید.
در ابر فردوسی ما با ارائه سرورهای گرافیک ابری مجهز به جدیدترین و قدرتمندترین GPUهای NVIDIA، دقیقاً همین راهکار را برای هنرمندان دیجیتال، محققان و علاقهمندان به هوش مصنوعی فراهم کردهایم. هدف ما این است که شما بدون دغدغه هزینههای سنگین و پیچیدگیهای فنی سختافزار، لذت خلق کردن را در بالاترین حد آن تجربه کنید. برای تجربه این قدرت، یک اعتبار رایگان ۱۰۰ هزار تومانی برای تست سرورهای ما در اختیار شماست که بهمحض ثبتنام برای شما فعال میشود.
جمعبندی
همانطورکه در این راهنما دیدیم، هوش مصنوعی Stable Diffusion بیشاز یک ابزار سرگرمکننده، یک انقلاب در دنیای خلاقیت دیجیتال و دسترسیپذیری هوش مصنوعی است. این مدل متنباز، قدرت تولید تصویر با AI را از انحصار شرکتهای بزرگ خارج کرده و آن را در اختیار همه ما قرار داده است. از ساخت یک تصویر ساده برای پست وبلاگ گرفته تا خلق آثار هنری پیچیده و آموزش مدلهای شخصیسازیشده، مرزهای خلاقیت اکنون تنها به قدرت تخیل و البته قدرت پردازشی شما بستگی دارد.
اکنون که با این ابزار قدرتمند آشنا شدید، اولین تصویری که میخواهید با آن خلق کنید چیست؟ ایدههای خود را در بخش نظرات با ما به اشتراک بگذارید.
سؤالات متداول
هوش مصنوعی Stable Diffusion دقیقاً چیست؟
یک مدل هوش مصنوعی متنباز (Open Source) است که به شما اجازه میدهد توضیحات متنی (پرامپت) را به تصاویر خلاقانه و منحصربهفرد تبدیل کنید. این ابزار یکی از قدرتمندترین مدلهای مولد تصویر در جهان محسوب میشود.
چطور با هوش مصنوعی Stable Diffusion عکس بسازم؟
سه راه اصلی وجود دارد:
پلتفرمهای آنلاین: سادهترین راه برای شروع سریع
نصب روی کامپیوتر شخصی: برای کنترل کامل (نیاز به GPU قوی دارد)
استفاده از سرور گرافیک ابری: بهترین گزینه برای دسترسی به قدرت بالا بدون خرید سختافزار
آیا استفاده از هوش مصنوعی Stable Diffusion رایگان است؟
بله، خود مدل Stable Diffusion به دلیل متنباز بودن رایگان است و میتوانید آن را بدون هزینه دانلود کنید. اما برای اجرای آن به قدرت پردازشی (GPU) نیاز دارید که یا باید سختافزار آن را خریده باشید یا از سرویسهای ابری استفاده کنید که هزینه آن براساس میزان مصرف محاسبه میشود.
آیا برای اجرای هوش مصنوعی Stable Diffusion به کامپیوتر قوی نیاز دارم؟
بله، برای یک تجربه روان و تولید تصاویر باکیفیت روی کامپیوتر شخصی به یک کارت گرافیک (GPU) با حداقل ۸ گیگابایت حافظه VRAM نیاز دارید. اگر سختافزار شما ضعیف است، استفاده از سرور گرافیک ابری راهحل جایگزین و بسیار کارآمدی است.
آیا میتوانم از تصاویری که میسازم استفاده تجاری کنم؟
بله، طبق مجوز CreativeML OpenRAIL-M، شما مالک تصاویری هستید که خلق میکنید و میتوانید از آنها برای مقاصد تجاری استفاده کنید، به شرطی که محتوای غیرقانونی یا مضر تولید نکنید. همیشه توصیه میشود آخرین نسخه مجوز را برای اطلاع از جزئیات بررسی کنید.

