محققان دانشگاههای استنفورد، کلمبیا و ویسکانسین مدیسون در یک همکاری مشترک مدل LLaVA را به صورت اپنسورس و رایگان منتشر کردند. این مدل توانایی زبانی و درک تصویر را داشته و میتواند با مدل GPT-4 شرکت OpenAI رقابت کند. LLaVA شبکه عصبی CLIP و چتبات Vicuna را به هم وصل کرده است. CLIP در واقع یک شبکه عصبی است که روی تناظر (متن، تصویر) آموزش داده شده است. این شبکه با دریافت یک تصویر میتواند یک متن مرتبط با آن را تولید کند. چتبات Vicuna نیز fine tune شده مدل معروف LLaMA 2 با استفاده از نمونه چتهای ChatGPT است. دیتاست و وزنهای این مدل به صورت رایگان در اختیار عموم قرار گرفته است. محققان این پروژه از مدل GPT-4 به عنوان داور برای بررسی عملکرد LLaVA استفاده کرده و نتایج آن را منتشر کردهاند. بنابر ادعای توسعهدهندگان این مدل، LLaVA عملکرد قابل قبولی داشته و میتواند با GPT-4 رقابت کند. در تصویر زیر مقایسه دقت LLaVA با نمونههای مشابه را در سوال و جواب علمی (Science QA) مشاهده میکنید.
بیش از چند دهه از جریان اپنسورس (متنباز) میگذرد. در این مدت نرمافزارهای کاربردی بسیاری به صورت اپنسورس منتشر شده و امروزه نقش این جریان در صنعت نرمافزار بر کسی پوشیده نیست. با گسترش سیستمهای هوشمصنوعی و ورود سرمایههای هنگفت به این حوزه شاهد معرفی مدلهای بسیار قدرتمندی نظیر GPT-4 بودیم. بسیاری از این مدلهای قدرتمند به صورت انحصاری در اختیار کمپانیهای تکنولوژی نظیر مایکروسافت و گوگل قرار دارند. توسعه چنین سیستمهایی نیازمند منابع بسیار زیادی بوده که در اختیار هر کسی نیست. از این رو، شرکتهای کوچکتر در این رقابت جایی نداشته و نمیتوانند از مزایای چنین مدلهای بهرهمند شوند. اما، طرز فکر اپنسورس توسط افراد و حتی شرکتهای بزرگی نظیر متا و IBM وارد حوزه هوشمصنوعی نیز شده است. افراد صاحب نظری چون یان لیکان توسعه اپنسورس را یکی از راههای مهم برای کاهش ریسکهای هوشمصنوعی دانسته و همواره انحصار شرکتهایی نظیر مایکروسافت را مورد انتقاد قرار میدهند. معرفی مدلهای بزرگ توسط کمپانیهای تکنولوژی نظیر انتشار LLaMA توسط متا راه را برای مشارکت کمپانیهای کوچکتر و مراکز دانشگاهی هموار کرده و میتواند زمینه رقابت با مدلهای انحصاری را فراهم سازد. چنانچه مشاهده میکنید، LLaVA در ادامه اقدام متا در توسعه مدلهای اپنسورس معرفی شده است. با این وجود در دسترس عموم قرار گرفتن مدلهای قدرتمند هوشمصنوعی نگرانیهایی را نیز در پی داشته است. زیرا چنین ابزاری میتواند توسط هر کسی برای مقاصد غیرقانونی مورد استفاده قرار بگیرد.
۱. برای مطالعه جزئیات فنی و مشاهده نتایج به اینجا مراجعه کنید.
۲. برای دمو مدل LLaVA به اینجا مراجعه کنید.
اگر مایل به دریافت این خبرنامه در پستالکترونیک خود هستید از اینجا ثبتنام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد. همچنین میتوانید با عضو شدن در کانال تلگرام این خبرنامه، در سریعترین زمان در جریان مقالات جدید قرار بگیرید.
دیدگاه خود را بنویسید