دستیار هوش مصنوعی آینده‌نگر برای دسکتاپ

به گزارش تجارت نیوز،

در نمایشگاه CES 2025، انویدیا از یک آواتار هوش مصنوعی به نام R2X رونمایی کرد که قرار است روی دسکتاپ کامپیوتر کاربران زندگی کند و در انجام وظایف مختلف کمک کند. این دستیار هوش مصنوعی که شبیه به یک شخصیت بازی ویدیویی است، با استفاده از مدل‌های پیشرفته هوش مصنوعی انویدیا رندر و متحرک‌سازی می‌شود.

R2X می‌تواند از طریق متن و صدا با کاربران تعامل کند، فایل‌های آپلودشده را پردازش کند و حتی فعالیت‌های زنده صفحه نمایش یا فید دوربین را مشاهده کند. اگرچه این مفهوم نوآورانه است، اما نمایش‌های اولیه هم پتانسیل و هم عجایب این فناوری را آشکار می‌کند.

قابلیت‌های پیشرفته R2X  

R2X توسط مدل‌های زبانی بزرگ (LLMs) محبوب مانند GPT-4o شرکت OpenAI یا Grok شرکت xAI تغذیه می‌شود و به کاربران امکان می‌دهد قابلیت‌های آواتار را بر اساس ترجیحات خود سفارشی کنند. این آواتار می‌تواند به کاربران در پیمایش برنامه‌ها، ارائه بازخورد در مورد وظایف و کمک به فعالیت‌های پیچیده مانند کدنویسی کمک کند.

انویدیا قصد دارد این آواتارها را در نیمه اول سال ۲۰۲۵ به صورت متن‌باز منتشر کند تا توسعه‌دهندگان بتوانند نرم‌افزار هوش مصنوعی مورد علاقه خود را ادغام کنند یا آواتارها را به صورت محلی اجرا کنند. این اقدام R2X را به عنوان یک رابط کاربری جدید برای دستیاران هوش مصنوعی معرفی می‌کند که فناوری تولید بازی‌های ویدیویی را با مدل‌های زبانی بزرگ پیشرفته ترکیب می‌کند.

توانایی پردازش تصاویر صفحه نمایش

یکی از ویژگی‌های برجسته R2X توانایی آن در گرفتن اسکرین‌شات‌های مداوم از صفحه نمایش کاربر و پردازش آن‌ها از طریق یک مدل هوش مصنوعی است. مشابه ویژگی Recall مایکروسافت که به دلیل نگرانی‌های حریم خصوصی به تعویق افتاد، این قابلیت به طور پیش‌فرض غیرفعال است.

هنگامی که فعال شود، R2X می‌تواند برنامه‌های در حال اجرا روی کامپیوتر را تحلیل کند و کمک‌های لحظه‌ای ارائه دهد. به عنوان مثال، می‌تواند کاربران را در انجام وظایف پیچیده در نرم‌افزارهایی مانند Adobe Photoshop راهنمایی کند. 

تغییر مدل هوش مصنوعی از GPT-4o به Grok شرکت xAI توانایی مشاهده صفحه نمایش را بازگرداند که محدودیت‌های فناوری در مراحل اولیه را برجسته می‌کند.

چالش‌های فنی و جلوه Uncanny Valley

اجزای بصری و شنیداری آواتار توسط بخش بازی‌های ویدیویی انویدیا تأمین می‌شود. الگوریتم RTX neural faces ظاهر آواتار را تولید می‌کند، در حالی که مدل Audio2Face™-3D حرکات صورت، لب و زبان را به طور خودکار انجام می‌دهد. با وجود این پیشرفت‌ها، آواتار گاهی اوقات جلوه Uncanny Valley را نشان می‌داد، به طوری که صورت آن در موقعیت‌های عجیب گیر می‌کرد و لحن آن گاهی اوقات تهاجمی به نظر می‌رسید. این عجایب چالش‌های ایجاد یک دستیار هوش مصنوعی واقع‌گرا که تعامل با آن طبیعی به نظر برسد را برجسته می‌کند.

پتانسیل R2X در محیط‌های حرفه‌ای

در یکی از نمایش‌ها، R2X یک فایل PDF از دسکتاپ را پردازش کرد و به سوالات درباره محتوای آن با استفاده از یک ویژگی محلی به نام RAG پاسخ داد. این قابلیت به آواتار امکان می‌دهد اطلاعات را از اسناد استخراج کند و با استفاده از مدل زبانی بزرگ پردازش کند، که پتانسیل آن را به عنوان یک ابزار تحقیقاتی و افزایش بهره‌وری نشان می‌دهد. انویدیا همچنین تصور می‌کند که R2X می‌تواند به عنوان یک دستیار شخصی در جلسات Microsoft Teams شرکت کند و کاربرد آن را در محیط‌های حرفه‌ای گسترش دهد.

آینده R2X و قابلیت‌های عامل‌محور  

انویدیا در حال کار بر روی تجهیز R2X به قابلیت‌های عامل‌محور است که به آن امکان می‌دهد اقداماتی را روی دسکتاپ کاربر انجام دهد. با این حال، این عملکرد هنوز در حال توسعه است و احتمالاً به همکاری با شرکت‌های نرم‌افزاری مانند مایکروسافت و ادوبی نیاز دارد که آن‌ها نیز در حال بررسی سیستم‌های عامل‌محور مشابه هستند.

شرکت هنوز مشخص نکرده است که صداهای این آواتارها چگونه تولید می‌شوند. در حالی که صدای R2X هنگام استفاده از GPT-4o با صداهای پیش‌فرض ChatGPT متفاوت است، چت‌بات Grok شرکت xAI در حال حاضر فاقد حالت صوتی است.

R2X انویدیا گامی جسورانه به سوی بازتعریف نحوه تعامل کاربران با دستیاران هوش مصنوعی است. با ترکیب فناوری تولید بازی‌های ویدیویی با مدل‌های زبانی بزرگ پیشرفته، این شرکت مرزهای توانایی‌های آواتارهای هوش مصنوعی را گسترش می‌دهد.

با این حال، مشکلات گاه‌به‌گاه و رفتار عجیب نمونه اولیه، یادآوری می‌کند که این فناوری هنوز در مراحل اولیه است. با ادامه تلاش‌های انویدیا برای بهبود R2X، جالب خواهد بود که ببینیم این آواتار هوش مصنوعی چگونه تکامل می‌یابد و آیا می‌تواند بر چالش‌های ایجاد یک تجربه کاربری بی‌نقص و شهودی غلبه کند یا خیر.

مطالب مفید