بالاخره بعد از مدت‌ها انتظار گوگل قدرتمندترین مدل هوش‌مصنوعی خود به نام Gemini (با تلفظ جمینای) را منتشر کرد. این مدل توانایی درک دیتا به شکل‌های مختلف متن، کد، تصویر، ویدئو و صوت را دارد. از این رو اصطلاحاً یک multimodal (مولتی مدال) نامیده می‌شود. نسخه 1.0 مدل Gemini در سه سایز مختلف بهینه شده است:

  • نسخه Gemini Ultra: بزرگترین مدل Gemini که برای تسک‌های بسیار پیچیده بهینه شده است.
  • نسخه Gemini Pro: این مدل نسبت به مدل Ultra کوچکتر بوده و برای اجرای گستره مختلفی از تسک‌ها و اسکیل کردن بهینه شده است.
  • نسخه Gemini Nano: کوچکترین مدل Gemini که برای اجرا روی موبایل بهینه شده است.

بنابر گزارش فنی منتشر شده، نسخه Gemini Ultra در ۳۰ مورد از ۳۲ بنچمارک‌ معتبر از تمامی مدل‌های موجود بهتر عمل کرده است. مدل Gemini از ابتدا به صورت مولتی مدال با توانایی درک انواع دیتا آموزش داده شده و سپس fine tune شده است. این درحالیست که در روش استاندارد برای توسعه چنین مدل‌هایی، ابتدا اجزای مختلف آن به صورت جداگانه آموزش داده شده و سپس این اجزا با هم یکپارچه می‌شود.  

مدل Gemini با استفاده نسخه 4 و 5e پلتفرم ابری TPU آموزش داده شده است. این پلتفرم ابری از پردازنده‌های TPU که توسط گوگل برای محاسبات هوش‌مصنوعی طراحی شده، استفاده می‌کند. گوگل ضمن معرفی مدل Gemini نسخه جدید پلتفرم ابری هوش‌مصنوعی خود به نام Cloud TPU v5p را معرفی کرد. طبق ادعای گوگل، برای جلوگیری از تولید محتوای آسیب‌زننده (نظیر محتوای نژادپرستانه، غیرانسانی، ناسزا و موارد مشابه) دیتاست‌ها و فریم‌وروک‌های مختلفی استفاده شده تا از ایمنی مدل Gemini اطمینان حاصل شود. 

مقایسه Gemini با GPT-4 در بنچمارک‌های مختلف

مدل Gemini به عنوان اولین مدل توانست با امتیاز ۹۰درصد در بنچمارک MMLU از تمامی مدل‌های موجود بهتر ظاهر شود. این بنچمارک شامل سوالاتی از ۵۷ موضوع مختلف نظیر ریاضیات، فیزیک، حقوق، تاریخ و پزشکی است. در جدول زیر، عملکرد نسخه Gemini Ultra با مدل GPT-4 در تعدادی از بنچمارک‌های مربوط به دیتای متنی مقایسه شده است. همان‌طور که مشاهده می‌کنید مدل Gemini Ultra به جز یک بنچمارک بهتر از مدل GPT-4 ظاهر شده است.

A chart showing Gemini Ultra’s performance on common text benchmarks, compared to GPT-4 (API numbers calculated where reported numbers were missing).

در جدول زیر نیز عملکرد مدل Gemini Ultra با مدل GPT-4 در بنچمارک‌هایی که دیتای تصویری، صوتی و ویدئویی دارند مقایسه شده است. در بنچمارک MMMU مدل Gemini Ultra با ۵۹.۴ درصد بهتر از مدل GPT-4 ظاهر شده است. طبق گزارش این بنچمارک بدون استفاده از OCR انجام شده است. OCR با استخراج متن از تصویر اجرای تسک‌هایی که دارای تصویر یا ویدئو هستند را برای مدل هوش‌مصنوعی ساده‌تر می‌کند. 

A chart showing Gemini Ultra’s performance on multimodal benchmarks compared to GPT-4V, with previous SOTA models listed in places where capabilities are not supported in GPT-4V.

عملکرد Gemini در برنامه‌نویسی

گوگل با استفاده از نسخه Gemini Pro سیستم برنامه‌نویسی Alphacode 2 را طراحی کرده و برای بررسی عملکرد آن در ۱۲ مسابقه پلتفرم Codeforces با بیش از ۸۰۰۰ هزار شرکت‌کننده شرکت داد. طبق نتایج منتشر شده، نسخه دوم Alphacode در ۴۳ درصد چالش‌ها تا ۲ برابر بهبود نسبت به نسخه قبلی خود داشته است. طبق تخمین گوگل، Alphacode 2 از ۸۵ درصد شرکت‌کنندگان در این مسابقات بهتر عمل کرده است (این تخمین برای نسخه قبلی ۴۶ درصد است، نمودار زیرا را مشاهده کنید). یکی دیگر از بهبودهای نسخه دوم Alphacode کاهش قابل توجه تعداد نمونه‌ها به ازای مسئله برای آموزش است. کیفیت نسخه دوم Alphacode با صد نمونه به ازای هر مساله با کیفیت نسخه اول Alphacode با یک میلیون نمونه به ازای هر مساله برابری می‌کند. با وجود نتایج درخشان، Alphacode برای رقابت با بهترین برنامه‌نویسان نیازمند توسعه و سعی و خطای بیشتری است. از طرفی عملیاتی کردن آن در اسکیل بالا هزینه‌بر است. برای مطالعه جزئیات بیشتر درباره Alphacode 2 اینجا را بخوانید.

عملکرد Gemini در برنامه‌نویسی | معرفی Alphacode2

عملیاتی شدن Gemini

در حال حاضر نسخه Gemini Pro در چت‌بات بارد در حال استفاده است. به زودی Gemini Pro در سایر محصولات گوگل نظیر سرچ، تبلیغات، کروم و Duet AI نیز استفاده خواهد شد. نسخه Gemini Nano نیز در پیکسل 8 پرو در دسترس قرار خواهد گرفت. از ۱۳ دسامبر (کمتر از یک هفته دیگر) Gemini Pro از طریق API در سرویس‌های Google AI Studio و Google Cloud Vertex AI در دسترس توسعه‌دهندگان قرار خواهد گرفت (برای توسعه اپلیکیشن‌های اندرویدی با Gemini Nano اینجا را بخوانید). Gemini Nano نیز به زودی در دسترس توسعه‌دهندگان اندروید قرار خواهد گرفت. Gemini Ultra نیز  بعد از بهبود با استفاده از یادگیری تقویتی و فیدبک انسانی و همچنین اطمینان از ایمنی آن در ابتدای سال بعدی میلادی  با معرفی Bard Advanced در دسترس کاربران قرار خواهد گرفت (احتمالا این نسخه از بارد پولی باشد). 

گوشی پرچم‌دار Pixel 8 و مدل Gemini Nano

همان‌طور که اشاره شد، نسخه Nano مدل Gemini برای گوشی‌های هوشمند بهینه شده است. گوشی پرچم‌دار گوگل به نام پیکسل ۸ سال جاری میلادی با مجموعه‌ای از قابلیت‌های هوش‌مصنوعی معرفی شد. اکنون با بروزرسانی این گوشی پرچم‌دار امکان استفاده از قابلیت‌های Gemini Nano برای کاربران آن نیز فراهم شده است. پیکسل ۸ از چیپ‌ Tensor G3 برای اجرای محاسبات ماشین‌لرنینگ استفاده می‌کند. این چیپ توسط گوگل برای کاربردهای هوش‌مصنوعی مولد بهینه شده است. با استفاده از Gemini Nano کاربران پیکسل می‌توانند خلاصه فایل صوتی را به صورت متن مطالعه کنند. همچنین از طریق اپلیکیشن Gboard می‌توانند از متن‌های پیشنهادی آن در مکالمات خود در چت استفاده کنند. تمامی قابلیت‌های مبتنی بر Gemini Nano بدون نیاز به اینترنت به صورت آفلاین در اختیار کاربران قرار می‌گیرد. دسترسی آفلاین به این مدل از نگرانی کاربران در رابطه حفظ حریم شخصی و امنیت اطلاعات می‌کاهد. برای آشنایی بیشتر با سایر قابلیت‌های هوش‌مصنوعی پیکسل ۸ اینجا را بخوانید.

از نسخه ۱۴ اندروید سرویس AICore برای فراهم کردن دسترسی به مدل‌های بنیادی برای سایر اپلیکیشن‌ها معرفی شد. این سرویس با استفاده از روش LoRA امکان fine tune کردن مدل LLM برای کاربردهای خاص را فراهم می‌کند. همچنین با فراهم کردن مجموعه‌ای از مکانیزم‌ها مدل را برای اپلیکیشن ایمن می‌کند. در تصویر زیر معماری آن به شکل ساده‌ای نمایش داده شده است. اکنون توسعه‌دهندگان اندروید می‌توانند از Gemini Nano برای توسعه اپلیکیشن‌های مبتنی بر هوش‌مصنوعی بهره ببرند. برای مطالعه بیشتر درباره AICore اینجا را بخوانید.

AICore architechture


1. گوگل DeepMind را برای رقابت با ChatGPT به میدان می‌فرستد!

2. Introducing Gemini: our largest and most capable AI model


اگر مایل به دریافت این خبرنامه در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد. همچنین می‌توانید با عضو شدن در کانال تلگرام این خبرنامه، در سریع‌ترین زمان در جریان مقالات جدید قرار بگیرید.