بالاخره بعد از مدتها انتظار گوگل قدرتمندترین مدل هوشمصنوعی خود به نام Gemini (با تلفظ جمینای) را منتشر کرد. این مدل توانایی درک دیتا به شکلهای مختلف متن، کد، تصویر، ویدئو و صوت را دارد. از این رو اصطلاحاً یک multimodal (مولتی مدال) نامیده میشود. نسخه 1.0 مدل Gemini در سه سایز مختلف بهینه شده است:
- نسخه Gemini Ultra: بزرگترین مدل Gemini که برای تسکهای بسیار پیچیده بهینه شده است.
- نسخه Gemini Pro: این مدل نسبت به مدل Ultra کوچکتر بوده و برای اجرای گستره مختلفی از تسکها و اسکیل کردن بهینه شده است.
- نسخه Gemini Nano: کوچکترین مدل Gemini که برای اجرا روی موبایل بهینه شده است.
بنابر گزارش فنی منتشر شده، نسخه Gemini Ultra در ۳۰ مورد از ۳۲ بنچمارک معتبر از تمامی مدلهای موجود بهتر عمل کرده است. مدل Gemini از ابتدا به صورت مولتی مدال با توانایی درک انواع دیتا آموزش داده شده و سپس fine tune شده است. این درحالیست که در روش استاندارد برای توسعه چنین مدلهایی، ابتدا اجزای مختلف آن به صورت جداگانه آموزش داده شده و سپس این اجزا با هم یکپارچه میشود.
مدل Gemini با استفاده نسخه 4 و 5e پلتفرم ابری TPU آموزش داده شده است. این پلتفرم ابری از پردازندههای TPU که توسط گوگل برای محاسبات هوشمصنوعی طراحی شده، استفاده میکند. گوگل ضمن معرفی مدل Gemini نسخه جدید پلتفرم ابری هوشمصنوعی خود به نام Cloud TPU v5p را معرفی کرد. طبق ادعای گوگل، برای جلوگیری از تولید محتوای آسیبزننده (نظیر محتوای نژادپرستانه، غیرانسانی، ناسزا و موارد مشابه) دیتاستها و فریموروکهای مختلفی استفاده شده تا از ایمنی مدل Gemini اطمینان حاصل شود.
مقایسه Gemini با GPT-4 در بنچمارکهای مختلف
مدل Gemini به عنوان اولین مدل توانست با امتیاز ۹۰درصد در بنچمارک MMLU از تمامی مدلهای موجود بهتر ظاهر شود. این بنچمارک شامل سوالاتی از ۵۷ موضوع مختلف نظیر ریاضیات، فیزیک، حقوق، تاریخ و پزشکی است. در جدول زیر، عملکرد نسخه Gemini Ultra با مدل GPT-4 در تعدادی از بنچمارکهای مربوط به دیتای متنی مقایسه شده است. همانطور که مشاهده میکنید مدل Gemini Ultra به جز یک بنچمارک بهتر از مدل GPT-4 ظاهر شده است.
در جدول زیر نیز عملکرد مدل Gemini Ultra با مدل GPT-4 در بنچمارکهایی که دیتای تصویری، صوتی و ویدئویی دارند مقایسه شده است. در بنچمارک MMMU مدل Gemini Ultra با ۵۹.۴ درصد بهتر از مدل GPT-4 ظاهر شده است. طبق گزارش این بنچمارک بدون استفاده از OCR انجام شده است. OCR با استخراج متن از تصویر اجرای تسکهایی که دارای تصویر یا ویدئو هستند را برای مدل هوشمصنوعی سادهتر میکند.
عملکرد Gemini در برنامهنویسی
گوگل با استفاده از نسخه Gemini Pro سیستم برنامهنویسی Alphacode 2 را طراحی کرده و برای بررسی عملکرد آن در ۱۲ مسابقه پلتفرم Codeforces با بیش از ۸۰۰۰ هزار شرکتکننده شرکت داد. طبق نتایج منتشر شده، نسخه دوم Alphacode در ۴۳ درصد چالشها تا ۲ برابر بهبود نسبت به نسخه قبلی خود داشته است. طبق تخمین گوگل، Alphacode 2 از ۸۵ درصد شرکتکنندگان در این مسابقات بهتر عمل کرده است (این تخمین برای نسخه قبلی ۴۶ درصد است، نمودار زیرا را مشاهده کنید). یکی دیگر از بهبودهای نسخه دوم Alphacode کاهش قابل توجه تعداد نمونهها به ازای مسئله برای آموزش است. کیفیت نسخه دوم Alphacode با صد نمونه به ازای هر مساله با کیفیت نسخه اول Alphacode با یک میلیون نمونه به ازای هر مساله برابری میکند. با وجود نتایج درخشان، Alphacode برای رقابت با بهترین برنامهنویسان نیازمند توسعه و سعی و خطای بیشتری است. از طرفی عملیاتی کردن آن در اسکیل بالا هزینهبر است. برای مطالعه جزئیات بیشتر درباره Alphacode 2 اینجا را بخوانید.
عملیاتی شدن Gemini
در حال حاضر نسخه Gemini Pro در چتبات بارد در حال استفاده است. به زودی Gemini Pro در سایر محصولات گوگل نظیر سرچ، تبلیغات، کروم و Duet AI نیز استفاده خواهد شد. نسخه Gemini Nano نیز در پیکسل 8 پرو در دسترس قرار خواهد گرفت. از ۱۳ دسامبر (کمتر از یک هفته دیگر) Gemini Pro از طریق API در سرویسهای Google AI Studio و Google Cloud Vertex AI در دسترس توسعهدهندگان قرار خواهد گرفت (برای توسعه اپلیکیشنهای اندرویدی با Gemini Nano اینجا را بخوانید). Gemini Nano نیز به زودی در دسترس توسعهدهندگان اندروید قرار خواهد گرفت. Gemini Ultra نیز بعد از بهبود با استفاده از یادگیری تقویتی و فیدبک انسانی و همچنین اطمینان از ایمنی آن در ابتدای سال بعدی میلادی با معرفی Bard Advanced در دسترس کاربران قرار خواهد گرفت (احتمالا این نسخه از بارد پولی باشد).
گوشی پرچمدار Pixel 8 و مدل Gemini Nano
همانطور که اشاره شد، نسخه Nano مدل Gemini برای گوشیهای هوشمند بهینه شده است. گوشی پرچمدار گوگل به نام پیکسل ۸ سال جاری میلادی با مجموعهای از قابلیتهای هوشمصنوعی معرفی شد. اکنون با بروزرسانی این گوشی پرچمدار امکان استفاده از قابلیتهای Gemini Nano برای کاربران آن نیز فراهم شده است. پیکسل ۸ از چیپ Tensor G3 برای اجرای محاسبات ماشینلرنینگ استفاده میکند. این چیپ توسط گوگل برای کاربردهای هوشمصنوعی مولد بهینه شده است. با استفاده از Gemini Nano کاربران پیکسل میتوانند خلاصه فایل صوتی را به صورت متن مطالعه کنند. همچنین از طریق اپلیکیشن Gboard میتوانند از متنهای پیشنهادی آن در مکالمات خود در چت استفاده کنند. تمامی قابلیتهای مبتنی بر Gemini Nano بدون نیاز به اینترنت به صورت آفلاین در اختیار کاربران قرار میگیرد. دسترسی آفلاین به این مدل از نگرانی کاربران در رابطه حفظ حریم شخصی و امنیت اطلاعات میکاهد. برای آشنایی بیشتر با سایر قابلیتهای هوشمصنوعی پیکسل ۸ اینجا را بخوانید.
از نسخه ۱۴ اندروید سرویس AICore برای فراهم کردن دسترسی به مدلهای بنیادی برای سایر اپلیکیشنها معرفی شد. این سرویس با استفاده از روش LoRA امکان fine tune کردن مدل LLM برای کاربردهای خاص را فراهم میکند. همچنین با فراهم کردن مجموعهای از مکانیزمها مدل را برای اپلیکیشن ایمن میکند. در تصویر زیر معماری آن به شکل سادهای نمایش داده شده است. اکنون توسعهدهندگان اندروید میتوانند از Gemini Nano برای توسعه اپلیکیشنهای مبتنی بر هوشمصنوعی بهره ببرند. برای مطالعه بیشتر درباره AICore اینجا را بخوانید.
1. گوگل DeepMind را برای رقابت با ChatGPT به میدان میفرستد!
2. Introducing Gemini: our largest and most capable AI model
اگر مایل به دریافت این خبرنامه در پستالکترونیک خود هستید از اینجا ثبتنام کنید. این خبرنامه هر دو هفته به پست الکترونیک شما ارسال خواهد شد. همچنین میتوانید با عضو شدن در کانال تلگرام این خبرنامه، در سریعترین زمان در جریان مقالات جدید قرار بگیرید.
دیدگاه خود را بنویسید