در ماههای گذشته به دلیل انتشار ChatGPT وGoogle Bard و همچنین مدلهای مولد تصویر نظیر DALL-E و Midjourney عمده اخبار هوشمصنوعی مربوط به مدلهای بزرگ زبانی۱ و هوشمصنوعی مولد۲ بود. در میان این اخبار رقابت بین گوگل و مایکروسافت بیشتر به چشم میخورد. اما در این حین سایر غولهای تکنولوژی نیز دستخالی نبوده و در حال توسعه و انتشار دستاوردهای چشمگیر خود در حوزه هوشمصنوعی بوده و هستند. شرکت متا (فیسبوک سابق) نیز از جمله این شرکتهای پیشرو است. اگر چه مدل زبانی LLaMA که توسط متا معرفی شد در سایه GPT4 و Bard توجه چندانی را به خود جلب نکرد ولی در روزهای اخیر با کاسته شدن از تبوتاب مدلهای بزرگ زبانی، متا از فرصتهای مختلف برای معرفی دستاوردهای خود استفاده کرده است.
مرکز تحقیقاتی Meta AI که قبل از تغییر نام فیسبوک با نام 3(Facebook AI Research (FAIR شناخته میشد، زیرمجموعهای از شرکت متا است که از سال ۲۰۱۵ در حال تحقیقات در حوزههای مختلف هوشمصنوعی است. کتابخانه معروف PyTorch برای ماشینلرنینگ نیز توسط این مجموعه توسعه داده میشود. یانلیکان از افراد شناخته شده و برنده جایزهتورینگ از ابتدای تاسیس این مجموعه نقش کلیدی در جهتدهی و پروژههای Meta AI داشته است. در ادامه تعدادی از دستاوردهای جدید این مرکز تحقیقاتی معرفی میشود. پروژهها و دستاوردهای Meta AI محدود به این لیست نیست جهت کسب اطلاعات بیشتر به وبسایت رسمی آن مراجعه کنید.
معرفی مدل LSC برای دستور دادن به ربات با زبان انسان
مدل LSC4 یک مکانیزم ساده برای دستور دادن به ربات/سیستم با زبان انسان را فراهم میکند. با استفاده از این مدل انسان میتواند بدون هیچ ساختار مشخصی دستورات خود را برای ربات/سیستم به زبان بیاورد. روشهای کنونی دستور دادن به سیستمهای هوشمصنوعی با زبان انسان چنین جامعیتی برای تسکهای مختلف را ندارد. این مکانیزم زبان انسان را دریافت کرده و آن را به متن تبدیل میکند. سپس این متن به عنوان ورودی به یک مدل LLM داده شده تا تواناییهای مناسب ربات/سیستم برای انجام دادن هدف را با ورودیهای مناسب انتخاب کند. به عنوان مثال جمله "فنجان را بردار" منجر به اجرای (pick(cup (فراخوانی تابع pick با آرگومان cup) میشود. از طرفی از آنجایی که این مدل به فرم خاصی محدود نبوده شیوههای دیگر بیان این دستور به زبان انسان نیز نتیجه یکسانی خواهد داشت. در ویدیو زیر اجزای این مکانیزم به خوبی به تصویر کشده شده است. مدل LSC میتواند تعامل انسان و ربات را در مسائل Open Vocabulary Mobile Manipulation (OVMM)5 سادهتر کند. نتایج این پروژه در کنفرانس 20236 CVPR ارائه شد.
با کلیک کردن روی هر کدام از جملات زیر میتوانید ربات Spot در حال انجام آن دستور با استفاده از LSC را مشاهده کنید:
.Take all plushies to the hamper and bottle to the trash
.Take the bowls and cups from the kitchen counter to the sink and plushies to the room table
.Pick up the cup on the table and place it in the sink
معرفی VoiceBox
با استفاده از VoiceBox7 شما میتوانید با صدای هر کسی فایل صوتی تولید کنید! VoiceBox یک مدل مولد (Generative) بوده که براساس Flow Matching پیادهسازی شده است. این مدل کاربردهای گستردهتری داشته که در ادامه معرفی میشود.
- حذف نویز: فرض کنید در حال ضبط گزارش خبری هستید و صدای پارس سگ و یا صدای عبور ماشین نیز در گزارش ثبت میشود. VoiceBox امکان حذف نویز محیط را از فایل صوتی فراهم میسازد. برای شنیدن نمونهها به این لینک مراجعه کنید.
- ویرایش فایل صوتی: فرض کنید یک فایل صوتی طولانی ضبط کردهاید. بعد از ضبط متوجه میشوید لازم است بخشی از متن اصلاح شده و دوباره ضبط شود. VoiceBox میتواند قسمت مورد نظر را با متن جدید جایگزین کند. برای شنیدن نمونهها به این لینک مراجعه کنید.
- تولید فایل صوتی بر اساس نمونه: با استفاده از یک صدای نمونه به عنوان رفرنس میتوانید متن مورد نظر را با آن صدا تولید کنید. این قابلیت میتواند بین زبانهای مختلف نیز استفاده شود. به عنوان مثال صدای رفرنس میتواند به زبان انگلیسی باشد ولی صوت تولیدی به زبان فرانسوی. برای شنیدن نمونهها به اینجا و اینجا مراجعه کنید.
- تولید فایل صوتی بدون نمونه: VoiceBox برای خواندن متن الزاماً نیازی به فایل رفرنس ندارد. بلکه میتواند یک صوت کاملا جدید تولید کند. برای شنیدن نمونهها به اینجا مراجعه کنید.
اگرچه VoiceBox بسیار کاربردی است ولی به راحتی میتواند برای تولید Deep Fake مورد استفاده قرار بگیرد. از اینرو با توجه به ریسکهای آن متا تنها به معرفی و ارائه نتایج اکتفا کرده و از انتشار آن به صورت عمومی چشم پوشیده است. تلاشهای متا در حوزه Speech محدود به VoiceBox نیست. این مجموعه امسال با معرفی Audiocraft به صورت متنباز مدلی برای تولید موسیقی از متن ارائه کرد. برای تست Audiocraft به اینجا مراجعه کنید.
چیپ MTIA v1
سختافزار همواره یکی از تنگناهای بهرهوری در توسعه سیستمهای هوشمصنوعی بوده است. پردازندههای رایج برای طیف گستردهای از کاربردها طراحی میشوند. به همین جهت ممکن است بهرهوری مورد نیاز برای اجرای یک پردازش خاص را نداشته باشند. این موضوع توسط شرکتهای تکنولوژی نادیده گرفته نشده و همواره چیپهای مخصوص برای ماشینلرنینگ طراحی و پیادهسازی شده است. به چیپهای سفارشیشده برای کاربردهای خاص Application Specific Integrated Circuit (ASIC) گفته میشود. متا اولین چیپ ASIC مخصوص ماشینلرنینگ خود را در سال ۲۰۲۰ با نام 8(MTIA) Meta Training and Inference Accelerator معرفی کرد. MTIA شبکهای از 64 واحد پردازنده (PE) با آرایش 8*8 است که میتواند علاوه بر مموری چیپ از مموری خارجی نیز استفاده کند. یک SRAM با سایز 128MB بین واحدهای پردازنده به اشتراک گذاشته میشود تا دسترسی به دستورات و دیتای پرتکرار سریعتر شود. هر PE نیز از دو هسته کاستوم به همراه تعدادی Fixed Function Unit تشکیل میشود. Fixed Function Unitها برای اجرای دستورات مهم و پرتکرار نظیر ضرب ماتریسها بهینه شدهاند. هر هسته براساس RISC-V طراحی شده و تا جای ممکن برای پردازش موازی و دسترسی سریع به دیتا بهینه شده است. علاوهبر SRAM اشتراکی بین PEها، هر PE نیز دارای 128KB حافظه SRAM اختصاصی است. بهزودی در کنفرانس ISCA 2023 جزئیات جدیدی از این چیپ ارائه خواهد شد.
در دسترس قرار دادن ۶۵ مقاله و دیتاست از تحقیقات Meta AI در حوزه هوشمصنوعی
مارک زاکربرگ بنیانگذار متا و یان لیکان از رهبران کلیدی Meta AI همواره به اهمیت متنباز بودن تحقیقات هوشمصنوعی تاکید داشتهاند. بررسی مخزن گیتهاب این مجموعه نیز گواه این ادعاست. در راستای همین طرز فکر Meta AI مجموعهای از ۶۵ مقاله و دیتاست مربوط به تحقیقات خود را در دسترس عموم قرار داد. لیست این مقالات و دیتاستها را از اینجا مشاهده کنید. اگر برای پروژه خود به دنبال دیتاست میگردید نگاه کردن به این لیست خالی از لطف نیست.
۱. (LLM) Large Language Model
۳. در سال ۲۰۱۷ با انتشار خبری درباره تولید زبان جدید توسط چتباتهای فیسبوک این مجموعه تحقیقاتی در صدر اخبار قرار گرفت. در این خبر ادعا شده بود که چتباتهای فیسبوک زبان جدیدی بدون دخالت انسان ساخته و با استفاده از آن در حال مکالمه هستند و فیسبوک به محض فهمیدن این موضوع چتباتها را خاموش کرده است. در ادامه این اتفاق ایلان ماسک در توییتی هوشمصنوعی را خطرناکتر از بمب هستهای و کرهشمالی معرفی کرد. اگر چه این خبر خوراک خبری خوبی برای رسانهها شد و از سمت افکار عمومی توجه زیادی را جلب کرد ولی واقعیت موضوع چنین نبود. فیسبوک با انتشار جزئیات فنی بیشتر درباره این آزمایش تولید زبان جدید توسط چتباتها را با توجه به ماهیت مدلهای Reinforcement Learning طبیعی دانسته و اعلام کرد که این تحقیقات بدون مشکلی پایان یافته است و خاموش کردن آزمایش به دلیل خطرناک بودن آن صحت ندارد. مارک زاکربرگ نیز به توئیت ایلان ماسک واکنش داده و شیوه برخورد او را غیرضروری و بدون مسئولیت نامید.
۴. Language-guided Skill Coordination
۵. منظور از OVMM مسألهای است که در آن یک ربات شی درخواست شده را از محیط پیدا کرده و در محل درخواستشده قرار میدهد. حل این مسأله رباتها را در محیط زندگی انسان بسیار کارآمد میکند. مسابقهای به نام HomeRobot با همکاری متا حول چالش OVMM در حال برگزاری است. نتایج این مسابقه در کنفرانس NeurIPS 2023 ارائه خواهد شد. برای جزئیات بیشتر به این لینک مراجعه کنید.
۶. 2023 Conference on Computer Vision and Pattern Recognition
۷. Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
۸. MTIA v1: Meta’s first-generation AI inference accelerator
شما میتوانید با عضو شدن در کانال تلگرام این خبرنامه، در سریعترین زمان در جریان مقالات جدید قرار بگیرید.
دیدگاه خود را بنویسید