محققان دانشگاه‌های استنفورد، کلمبیا و ویسکانسین مدیسون در یک همکاری مشترک مدل LLaVA را به صورت اپن‌سورس و رایگان منتشر کردند. این مدل توانایی زبانی و درک تصویر را داشته و می‌تواند با مدل GPT-4 شرکت OpenAI رقابت کند. LLaVA شبکه عصبی CLIP و چت‌بات Vicuna را به هم وصل کرده است. CLIP در واقع یک شبکه عصبی است که روی تناظر (متن، تصویر) آموزش داده شده است. این شبکه با دریافت یک تصویر می‌تواند یک متن مرتبط با آن را تولید کند. چت‌بات Vicuna نیز fine tune شده مدل معروف LLaMA 2 با استفاده از نمونه چت‌های ChatGPT است. دیتاست و وزن‌های این مدل به صورت رایگان در اختیار عموم قرار گرفته است. محققان این پروژه از مدل GPT-4 به عنوان داور برای بررسی عملکرد LLaVA استفاده کرده و نتایج آن را منتشر کرده‌اند. بنابر ادعای توسعه‌دهندگان این مدل، LLaVA عملکرد قابل قبولی داشته و می‌تواند با GPT-4 رقابت کند. در تصویر زیر مقایسه دقت LLaVA با نمونه‌های مشابه را در سوال و جواب علمی (Science QA) مشاهده می‌کنید.

Science QA: New SoTA with the synergy of LLaVA with GPT-4

بیش از چند دهه از جریان اپن‌سورس (متن‌باز) می‌گذرد. در این مدت نرم‌افزارهای کاربردی بسیاری به صورت اپن‌سورس منتشر شده‌ و امروزه نقش این جریان در صنعت نرم‌افزار بر کسی پوشیده نیست. با گسترش سیستم‌های هوش‌مصنوعی و ورود سرمایه‌‌های هنگفت به این حوزه شاهد معرفی مدل‌های بسیار قدرتمندی نظیر GPT-4 بودیم. بسیاری از این مدل‌های قدرتمند به صورت انحصاری در اختیار کمپانی‌های تکنولوژی نظیر مایکروسافت و گوگل قرار دارند. توسعه چنین سیستم‌هایی نیازمند منابع بسیار زیادی بوده که در اختیار هر کسی نیست. از این رو، شرکت‌های کوچک‌تر در این رقابت جایی نداشته و نمی‌توانند از مزایای چنین مدل‌های بهره‌مند شوند. اما، طرز فکر اپن‌سورس توسط افراد و حتی شرکت‌های بزرگی نظیر متا و IBM وارد حوزه هوش‌مصنوعی نیز شده است. افراد صاحب نظری چون یان لیکان توسعه اپن‌سورس را یکی از راه‌های مهم برای کاهش ریسک‌های هوش‌مصنوعی دانسته و همواره انحصار شرکت‌هایی نظیر مایکروسافت را مورد انتقاد قرار می‌دهند. معرفی مدل‌های بزرگ توسط کمپانی‌های تکنولوژی نظیر انتشار LLaMA توسط متا راه را برای مشارکت کمپانی‌های کوچک‌تر و مراکز دانشگاهی هموار کرده و می‌تواند زمینه رقابت با مدل‌های انحصاری را فراهم سازد. چنانچه مشاهده می‌کنید، LLaVA در ادامه اقدام متا در توسعه مدل‌های اپن‌سورس معرفی شده است. با این وجود در دسترس عموم قرار گرفتن مدل‌های قدرتمند هوش‌مصنوعی نگرانی‌هایی را نیز در پی داشته است. زیرا چنین ابزاری می‌تواند توسط هر کسی برای مقاصد غیرقانونی مورد استفاده قرار بگیرد. 


۱. برای مطالعه جزئیات فنی و مشاهده نتایج به اینجا مراجعه کنید.

۲. برای دمو مدل LLaVA به اینجا مراجعه کنید.

۳. منبع تصویر کاور


اگر مایل به دریافت این خبرنامه در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد. همچنین می‌توانید با عضو شدن در کانال تلگرام این خبرنامه، در سریع‌ترین زمان در جریان مقالات جدید قرار بگیرید.