• یکشنبه / ۷ دی ۱۴۰۴ / ۰۲:۲۷
  • دسته‌بندی: هوش مصنوعی
  • کد خبر: 1404100603646
  • خبرنگار : 71604

«نانوبنانا» در ارائه عکس‌های واقع‌گرایانه بهتر از «چت‌جی‌پی‌تی» است

«نانوبنانا» در ارائه عکس‌های واقع‌گرایانه بهتر از «چت‌جی‌پی‌تی» است

یک مقاله جدید، قابلیت تولید تصویر دو مدل هوش مصنوعی «چت‌جی‌پی‌تی» و «نانوبنانا» را برای ایجاد عکس‌های آرشیوی با یکدیگر مقایسه کرده و برتری نانوبنانا را در ارائه عکس‌های واقع‌گرایانه، دارای ثبات و قابلیت استفاده برای متخصصان برجسته کرده است.

به گزارش ایسنا، در عرصه‌ هوش مصنوعی که به سرعت تکامل می‌یابد و فناوری‌های مولد تصویر، صنایع خلاق را متحول می‌کنند، رقابت شدیدی بین قابلیت‌های تولید تصویر «چت‌جی‌پی‌تی»(ChatGPT) شرکت «اوپن‌ای‌آی»(OpenAI) و «نانوبنانا پرو»(Nano Banana Pro) شرکت «گوگل» پدید آمده است.

به گزارش وب ‌پرو نیوز، این رقابت تنها درباره تولید تصاویر زیبا نیست، بلکه درباره تولید گزینه‌های کاربردی و با کیفیت بالاست که متخصصان بازاریابی، طراحی و رسانه می‌توانند بدون نیاز به دوباره‌کاری گسترده از آنها استفاده کنند. پیشرفت‌های اخیر، نحوه مدیریت این پلتفرم‌ها را در ایجاد عکس‌های آرشیوی برجسته کرده است. در این جایگاه، واقع‌گرایی، قابلیت استفاده و پایبندی به دستورالعمل‌ها برنده را تعیین می‌کند. این بررسی عمیق با استفاده از مقایسه‌های عملی و تحلیل‌های تخصصی بررسی می‌کند که چرا یک فناوری در ارائه تصاویر آرشیوی مناسب پیشی می‌گیرد؛ در حالی که دیگری با ناسازگاری‌هایی دست‌وپنجه نرم می‌کند که پتانسیل آن را تضعیف می‌کنند.

هسته اصلی این رویارویی، تفاوت‌های اساسی در نحوه پردازش ورودی‌های کاربر و ارائه خروجی‌ها توسط هر سیستم است. چت‌جی‌پی‌تی که توسط جدیدترین مدل‌های اوپن‌ای‌آی پشتیبانی می‌شود، گام‌های بلندی را در ادغام مستقیم تولید تصویر در رابط مکالمه‌ای خود برداشته است و به کاربران امکان می‌دهد تا از طریق زبان طبیعی، تصاویر را تکرار کنند. با وجود این، آزمایش‌ها نشان می‌دهند که اگرچه چت‌جی‌پی‌تی در خلاقیت عالی است، اما اغلب در تولید تصاویر آماده استفاده که آرشیوهای عکس به آن نیاز دارند، دچار مشکل می‌شود. در مقابل، نانوبنانا پرو از الگوریتم‌های پیشرفته برای اولویت‌بندی «واقع‌گرایی عکس‌وار» یا «فوتورئالیسم»(Photorealism) و حفظ جزئیات استفاده می‌کند و این ویژگی، آن را به گزینه‌ای مناسب برای متخصصانی تبدیل می‌کند که به فناوری‌های تقلیدکننده از عکاسی سنتی نیاز دارند.

ناظران صنعت خاطرنشان می‌کنند که تلاش برای ارائه فناوری‌های مولد تصویر بهتر، حاصل تقاضای گسترده‌تر برای هوش مصنوعی است تا خلاقیت انسان را بدون جایگزینی کامل آن تقویت کند.

در قلب چت‌جی‌پی‌تی، یک مدل ارتقاءیافته وجود دارد که زمان تولید سریع‌تر -تا چهار برابر سریع‌تر از مدل‌های پیشین- و بهبود وفاداری به دستورالعمل‌های کاربر را نوید می‌دهد. براساس اطلاعات منتشرشده در پلتفرم‌های اجتماعی مانند ایکس و خبرهای اوپن‌ای‌آی از بهبودهایی با تمرکز بر عناصر سازگار مانند نورپردازی و ظاهر سوژه در ویرایش‌ها، چت‌جی‌پی‌تی با هدف یکپارچه‌سازی گردش‌های کاری طراحی شده است. با وجود این، وقتی وظیفه پردازش تصاویر آماده مانند یک صحنه شلوغ اداری یا یک منظره آرام طبیعت بر عهده چت‌جی‌پی‌تی قرار می‌گیرد، اغلب مصنوعات یا ویژگی‌های سبکی را نشان می‌دهد که به پردازش بعدی نیاز دارند.

از سوی دیگر، نانوبنانا پرو براساس چارچوب هوش مصنوعی «جمینای»(Gemini) گوگل ساخته شده و قابلیت‌های چندوجهی را در خود جای داده است که درک متن را با تولید بصری ترکیب می‌کنند. بررسی‌ها بر مهارت آن در انجام دادن ویرایش‌های پیچیده بدون ایجاد اختلال در یکپارچگی کلی تصویر تأکید دارند. این ویژگی برای ایجاد عکس‌های آرشیوی که در آنها دقت کلید اصلی به شمار می‌رود، بسیار ارزشمند است. کاربران گزارش داده‌اند که نانوبنانا می‌تواند صحنه‌های فوق‌العاده واقع‌گرایانه‌ای مانند یک محصول در پس‌زمینه خنثی را با حداقل خطاهای هشدار ایجاد کند.

مقایسه‌ها درباره سرعت و دسترسی نیز انجام شده‌اند. در حالی که چت‌جی‌پی‌تی فناوری‌های تصویری را در رابط چت خود ادغام می‌کند و آن را برای تازه‌کارها کاربرپسند می‌سازد، نانوبنانا یک ویرایشگر اختصاصی را ارائه می‌دهد که برای حرفه‌ای‌ها مناسب است. یک بررسی شامل تطبیق‌های سریع مستقیم نشان داد نانوبنانا در سناریوهایی که به کیفیت سینمایی نیاز دارند، مانند شخصیتی در یک محیط پویا، عملکرد بهتری دارد و این امر بر قابلیت اطمینان آن برای ارائه خروجی‌های حرفه‌ای تأکید می‌کند.

عکاسی آرشیوی به چیزی بیش از زیبایی‌شناسی نیاز دارد. این کار مستلزم تطبیق‌پذیری، حساسیت فرهنگی و پایبندی به استانداردهای تجاری است. آزمایش‌هایی با درخواست‌های یکسان، نتایج شگفت‌انگیزی را نشان دادند. نانوبنانا به طور مداوم تصاویری را تولید می‌کرد که نه تنها واقع‌گرایانه‌تر بودند، بلکه از نظر بازنمایی نیز متنوع‌تر بودند و از تعصباتی که گاهی اوقات در خروجی‌های چت‌جی‌پی‌تی رخنه می‌کنند، دوری می‌کردند.

برای مثال، وقتی از نانوبنانا خواسته شد تصاویری را از متخصصان گوناگون در یک اتاق هیئت‌مدیره ایجاد کند، در نمایش حالت‌ها و لباس‌های طبیعی عالی عمل کرد و صحنه‌ها را باورپذیر و فراگیر ساخت. براساس آزمایش‌های عملی گزارش‌شده در وبلاگ‌های گوناگون فناوری، اگرچه چت‌جی‌پی‌تی توانمند بود، اما گاهی اوقات ناهنجاری‌هایی را مانند نورپردازی نامناسب یا ژست‌های غیرطبیعی نشان می‌داد. این امر، نانوبنانا را برای آژانس‌هایی که به خروجی سریع و بدون تعصب نیاز دارند، در اولویت قرار می‌دهد.

علاوه بر این، گردش کار ویرایش به طور قابل توجهی متفاوت است. چت‌جی‌پی‌تی امکان تغییرات تکراری را از طریق گفت‌وگو فراهم می‌کند که نوآورانه است، اما اگر مدل دستورالعمل‌ها را اشتباه تفسیر کند، می‌تواند به بروز خطا منجر شود. رابط کاربری نانوبنانا از اصلاحات دقیق پشتیبانی می‌کند و جزئیات را در نسخه‌های گوناگون حفظ می‌کند. این قابلیت برای تکرار عکس‌هایی که در آنها ثبات بسیار مهم است، یک مزیت به شمار می‌رود.

عرصه رقابت در حال داغ شدن است و محصولات اوپن‌ای‌آی مستقیماً تسلط گوگل را به چالش می‌کشند. اگرچه گزارش شده که مدل جدید چت‌جی‌پی‌تی سریع‌تر است، اما سرعت به تنهایی تضمین‌کننده برتری در کیفیت عکس‌ نیست. به‌روزرسانی‌های «جمینای ۳» گوگل نشان‌دهنده پیشرفت‌های گسترده‌تری هستند که می‌توانند برتری نانوبنانا را بیشتر تثبیت کنند.

با گسترش فناوری‌های هوش مصنوعی، ملاحظات اخلاقی اهمیت پیدا می‌کنند. تولید عکس‌های آرشیوی باید مسائل مربوط به حق چاپ و اصالت را در نظر بگیرد؛ یعنی حوزه‌هایی که هر دو پلتفرم در حال پیشبرد حفاظت از آنها هستند. با وجود این، واقع‌گرایی برتر نانوبنانا نیاز به مداخله انسانی را کاهش می‌دهد و ممکن است آژانس‌های سنتی آرشیو عکس را مختل ‌کند.

پست‌های اوپن‌ای‌آی در پلتفرم ایکس، بهبودهایی را در پایبندی به نیت آن نشان می‌دهند، اما بازخورد جامعه نشان می‌دهند که نانوبنانا در چالش‌های بیش از حد واقع‌گرایانه پیروز است.

ادغام این فناوری‌ها در اکوسیستم‌های گسترده‌تر نیز اهمیت دارد. رویکرد مبتنی بر گفت‌وگو چت‌جی‌پی‌تی برای طوفان فکری مناسب است؛ در حالی که ویرایشگر مستقل نانوبنانا برای کاربران تخصصی جذابیت دارد. برای عکس‌های آرشیوی، دقت ویرایشگر دومی برنده است.

اخبار جدید حاکی از آن است که همکاری‌ها و به‌روزرسانی‌ها می‌توانند پویایی را تغییر دهند. با وجود این، تاکنون که به اواخر سال ۲۰۲۵ رسیده‌ایم، نانوبنانا تاج و تخت را در حوزه تولید تصاویر کاربردی در اختیار دارد.

در نهایت، این رقابت به نفع کاربران است و نوآوری‌هایی را پیش می‌برد که نقش هوش مصنوعی را در زمینه‌های خلاقانه اصلاح می‌کنند. متخصصان باید هر دو را آزمایش کنند اما در حال حاضر نانوبنانا در ارائه تصاویر آماده که به طور یکپارچه با تلاش‌های تجاری ترکیب می‌شوند، پیشتاز است.

انتهای پیام

  • در زمینه انتشار نظرات مخاطبان رعایت چند مورد ضروری است:
  • -لطفا نظرات خود را با حروف فارسی تایپ کنید.
  • -«ایسنا» مجاز به ویرایش ادبی نظرات مخاطبان است.
  • - ایسنا از انتشار نظراتی که حاوی مطالب کذب، توهین یا بی‌احترامی به اشخاص، قومیت‌ها، عقاید دیگران، موارد مغایر با قوانین کشور و آموزه‌های دین مبین اسلام باشد معذور است.
  • - نظرات پس از تأیید مدیر بخش مربوطه منتشر می‌شود.

نظرات

شما در حال پاسخ به نظر «» هستید.
لطفا عدد مقابل را در جعبه متن وارد کنید
captcha