در این شماره می‌خوانید:

  • محصولات جدید در حوزه هوش‌مصنوعی مولد برای تولید صدا 🎶 تصویر 🖼 ویدئو 🎞 متن 📝 و کد 🧑‍💻!
  • نظرات لینوس توروالدز درباره استفاده از مدل‌های بزرگ زبانی در برنامه‌نویسی 
  • نظرات افراد صاحب نظر درباره هوش‌مصنوعی در اجلاس جهانی داووس 
  • سرمایه‌گذاری‌های آمازون و مایکروسافت در رباتیک و نمایش راه رفتن اپتیموس 🤖
  • مصاحبه بیل‌گیتس و سم آلتمن
  • به‌روزرسانی‌های گوگل کروم و گوگل بارد 

👈 برای مشاهده ویدئوها در تلگرام یا یوتیوب از پروکسی یا VPN استفاده کنید.


۱. افزایش سرمایه استارتاپ ElevenLabs
استارتاپ ElevenLabs با جذب سرمایه ۸۰ میلیون دلاری به ارزش ۱.۱ میلیارد دلار رسید. این استارتاپ مجمو‌عه‌ای از ابزارهای مبتنی بر هوش‌مصنوعی را برای تولید صدای مصنوعی (Synthetic Voice) به کاربر ارائه می‌دهد. کاربران می‌توانند با انتخاب ویژگی‌های مختلف نظیر سن، جنسیت و لهجه صدای مورد نظر خود را ساخته و یا اینکه صدای خود را در آن شبیه‌سازی کنند. ElevenLabs تنها طی چند ماه بیش از یک میلیون کاربر را جذب کرد. این استارتاپ اخیراً سرویس ترجمه خود را با نام AI Dubbing لانچ کرد. AI Dubbing ضمن حفظ صدا و احساسات گوینده، می‌تواند مکالمات آن را به ۲۹ زبان دیگر نیز بیان کند. همچنین قرار است یک marketplace برای فروش صداهای شبیه‌سازی شده در پلتفرم ElevenLabs راه‌اندازی شود (منبع خبر).
👈 برای تست اینجا را نگاه کنید.

استارتاپ ElevenLabs با جذب سرمایه ۸۰ میلیون دلاری به ارزش ۱.۱ میلیارد دلار رسید.


۲. قابلیت‌های جدید Google Chrome با استفاده از هوش‌مصنوعی مولد معرفی شد.
قابلیت Tab Organizer: این قابلیت تب‌های باز کاربر را به صورت خودکار گروه‌بندی می‌کند.
قابلیت Custom Theme: کاربر می‌تواند با انتخاب رنگ، استایل، موضوع و مود تم مورد نظر خود را در کروم رندر کند.
قابلیت Writing Help: قابلیت Help me write می‌تواند به کاربر در وب‌سایت‌های مختلف برای نوشتن متن پیشنهاد دهد.
این قابلیت‌ها در نسخه M121 معرفی شده‌ و در ابتدا در اختیار کاربران آمریکایی قرار خواهد گرفت. به مرور در سایر کشورها و تمامی‌ سیستم‌عامل‌ها نیز در دسترس قرار خواهند گرفت (منبع خبر).
قابلیت‌های جدید Google Chrome با استفاده از هوش‌مصنوعی مولد معرفی شد.


۳. تیم Google Research مدل جدیدی به نام lumiere را برای تولید ویدئو معرفی کرد. این مدل با دریافت متن و یا تصویر به عنوان ورودی، یک ویدیو ۵ ثانیه‌ای تولید می‌‌کند. نمونه‌های مشابهی اخیراً توسط runway و pika معرفی شده بود. همچنین این مدل می‌تواند با دریافت یک تصویر رفرنس ویدئوهای جدید را با همان استایل تولید کند. برای مطالعه جزئیات فنی اینجا را بخوانید.


۴. معرفی مدل ActAnywhere توسط محققان Adobe
محققان Adobe مدل جدیدی به نام ActAnywhere را برای تولید ویدئو ارائه کردند. این مدل می‌تواند حرکت انسان نظیر دویدن را به یک تصویر پس‌زمینه اضافه کند. تصویر پس‌زمینه به نحوی تغییر داده می‌شود که تعامل انسان با محیط در آن دیده شود. به عنوان مثال در این تصویر پاشیدن آب به خاطر دویدن شخص قابل مشاهده است. برای مطالعه جزئیات فنی اینجا را بخوانید.
خروجی  مدل ActAnywhere


۵. معرفی مدل‌های زبانی کوچک جدید از Stability AI

مدل Stable Code 3B: این مدل کوچک مخصوص کدنویسی با ۱۸ زبان برنامه‌نویسی مختلف توسعه داده شده است. نسبت به نمونه‌های مشابه در بنچ‌مارک‌ها بهتر عمل کرده است (👈جزئیات بیشتر).

مدل Stable LM 2 1.6B: یک مدل‌زبانی کوچک جدید که توانایی رقابت با مدل Phi2 مایکروسافت و حتی مدل‌های بزرگتری نظیر Falcon-40B-Instruct را دارد (👈 جزئیات بیشتر).


۶. هوش‌مصنوعی هنوز نمی‌تواند جایگزین نیروی کار باشد!

براساس مقاله جدیدی که توسط محققان دانشگاه MIT منتشر شده جایگزین شدن انسان با هوش‌مصنوعی بیش از اندازه بزرگنمایی شده و انتظار می‌رود این اتفاق به زودی رخ ندهد. دلیل اصلی این موضوع گران بودن هزینه راه‌اندازی و نگهداری سیستم‌های مبتنی بر هوش‌مصنوعی است. این مقاله به طور خاص روی ماشین‌بینایی (Computer Vision) تمرکز کرده است. طبق این مقاله، پیاده‌سازی سیستم‌های کاستوم مبتنی بر ماشین‌بینایی برای بسیاری از مشاغل نظیر نانوایی نسبت به استخدام نیروی انسانی هزینه بیشتری دارد و در نتیجه از نظر اقتصادی بهینه نیست. برای مطالعه کامل این مقاله اینجا را بخوانید.


۷. سرویس تولید ویدئو Runway قابلیت جدید خود را با نام Multi Motion Brush معرفی کرد. با استفاده از این قابلیت کاربر می‌تواند قسمت‌های مختلف تصویر را با حرکات مختلف کنترل کند. برای جزئیات بیشتر این ویدئو را تماشا کنید.


۸. قابلیت‌های جدید Adobe Premiere Pro با استفاده از هوش‌مصنوعی مولد  معرفی شد. 👈 مشاهده ویدئو


۹. نظرات لینوس توروالدز خالق لینوکس در مصاحبه اخیر خود در همایش بنیاد لینوکس در ژاپن درباره‌مدل‌های زبانی:
به عقیده لینوس توروالدز در آینده شاهد کدهایی خواهیم بود که توسط LLM نوشته شده است. حتی در حال حاضر نیز در مقیاس کوچک برنامه‌نویسان از مدل‌های بزرگ زبانی برای نوشتن کد کمک می‌گیرند. این موضوع به اندازه‌ای که در اخبار روزانه به آن پرداخته می‌شود جدید نیست، بلکه مدت‌هاست که توسعه‌دهندگان از ابزارهای مختلف برای اتوماسیون در کد نویسی استفاده می‌کنند. پیدا کردن خطاهای رایج کدنویسی یکی از کاربردهایی است که مدل‌های زبانی در آن بسیار درخشان خواهند بود. لینوس توروالدز در پاسخ به اینکه مدل‌های بزرگ زبانی به خاطر hallucination دچار اشتباه می‌شوند گفت: "من می‌بینم که هر روز باگ‌ها بدون حضور آن‌ها رخ می‌دهند، بنابراین نگران این موضوع نیستم!". hallucination یکی از اثرات جانبی مدل‌های زبانی است که باعث می‌شود پاسخ‌های غیرواقعی و اشتباه تولید کنند.

👈مشاهده ویدئو


۱۰. رنگی کردن تصاویر قدیمی

شرکت علی‌بابا مدل جدیدی به نام ddcolor را برای رنگی کردن تصاویر قدیمی و سیاه و سفید معرفی کرده است. برای تست این مدل اینجا را نگاه کنید. 

خروجی مدل علی بابا برای رنگی کردن تصاویر سیاه سفید


۱۱. نظرات Andrew Ng در اجلاس داوس ۲۰۲۴ درباره رگولاتوی هوش‌مصنوعی:
به عقیده Andrew Ng در حال حاضر رگولاتوری بیش‌از اندازه یکی از مشکلاتی است که می‌تواند توسعه هوش‌مصنوعی و منتفع شدن سایر حوزه‌ها از آن را تحت تاثیر قرار دهد. از ۱۵ام تا ۱۹ام ژانویه مجمع جهانی اقتصاد (داوس) در سوئیس برگزار شد. هوش‌مصنوعی یکی از مهم‌ترین موضوعاتی بود که در این اجلاس مورد بحث قرار گرفت.

👈 مشاهده ویدئو


۱۲. نظرات Yun LeCun در اجلاس داوس ۲۰۲۴ درباره هوش‌مصنوعی و اپن‌سورس:
به عقیده Yun LeCun (یان لیکان) اپن‌سورس بودن هوش‌مصنوعی به پیشرفت آن کمک بسزایی می‌کند و رگولاتوری اپن‌سورس به خاطر ترس این پیشرفت را کند خواهد کرد. یان لیکان استاد دانشگاه نیویورک و دانشمند ارشد متا در حوزه هوش‌مصنوعی است که در سال ۲۰۱۹ برنده جایزه تورینگ شد. برای دیدن ویدئوهای کامل نشست هوش‌مصنوعی در داوس ۲۰۲۴ به اینجا مراجعه کنید. 👈 مشاهده ویدئو


۱۳. مصاحبه بیل گیتس با سم آلتمن (بخش اول)

بیل گیتس مدیرعامل سابق و موسس مایکروسافت در پادکست خود با عنوان Unconfuse Me with Bill Gates با سم آلتمن مدیرعامل OpenAI مصاحبه کرد. این مصاحبه نکات جالبی را در بر داشته که در این مقاله شرح داده می‌شود. این اپیزود ۱۱ ژانویه ۲۰۲۴ منتشر شد ولی اندکی قبل از ماجرای اخراج جنجالی سم آلتمن ضبط شده بود. قابل ذکر است که در حال حاضر مایکروسافت بزرگترین سرمایه‌گذار OpenAI بوده و پیشرفت آن تا حد زیادی مرهون سرمایه‌گذاری‌های کلان مایکروسافت در سال‌های اخیر است. در این گفت‌و‌گو بیل گیتس اعلام کرد که در ابتدای پروژه نسبت به آینده ChatGPT شک و تردید داشت ولی این چت‌بات فراتر از انتظار عمل کرد. بخش دوم این مصاحبه به زودی از طریق خبرنامه هوش‌مصنوعی دومان منتشر خواهد شد.

👈 برای مطالعه مقاله اینجا را بخوانید.

👈 درباره اخراج جنجالی سم آلتمن اینجا را بخوانید.


۱۴. متا نسخه‌های fine-tune شده مدل Llama-70B مخصوص برنامه‌نویسی را با نام CodeLlama منتشر کرد (منبع). این نسخه‌ها عبارتند از:
• CodeLlama-70B
• CodeLlama-70B-Python
• CodeLlama-70B-Instruct


۱۵. آمازون تا پایان سال ۲۰۲۳ میلادی بیش از ۷۵۰هزار ربات را در انبارهای خود عملیاتی کرده است. آخرین نوع رباتی که در انبارهای آمازون مورد استفاده قرار گرفته ربات دوپای digit است. 👈 مشاهده ویدئو


۱۶. محصول جدید ElevenLabs به نام Dubbing Studio معرفی شد. این محصول امکان ترجمه فایل‌های ویدئویی به زبان‌های مختلف را فراهم می‌کند. برای تست آن به اینجا مراجعه کنید. 👈 مشاهده ویدئو


۱۷. مذاکرات مایکروسافت با Figure برای سرمایه‌گذاری ۵۰۰ میلیون دلاری
مایکروسافت و OpenAI در حال مذاکره با استارتاپ رباتیک Figure برای سرمایه‌گذاری هستند. طبق اخبار منتشر شده، ارزش این سرمایه‌گذاری ۵۰۰ میلیون دلار خواهد بود. Figure در سال ۲۰۲۲ شروع بکار کرد و در حال حاضر روی توسعه ربات‌های انسان‌نما فعالیت می‌کند. اخیراً محصول این شرکت در حال تهیه قهوه دمو شد (اینجا را مشاهده کنید). اواسط ماه ژانویه نیز همکاری Figure با خودروسازی ‌BMW اعلام شد. قرار است از ربات‌های انسان‌نمای آن در کارخانه ‌BMW در آمریکا استفاده شود. انتظار می‌رود در سال ۲۰۲۴ سرمایه‌گذاری در حوزه ساخت‌ ربات‌های انسان‌نما بیشتر شود (منبع خبر).

ربات Figure


۱۸. گوگل بارد نقاشی می‌کشد!
گوگل بارد با مدل Gemini Pro در بیش از ۲۳۰ کشور و ۴۰ زبان مختلف در دسترس عموم قرار گرفته است. در به‌روزرسانی جدید، این سرویس به مدل تولید تصویر گوگل به نام Imagen متصل شده و اکنون می‌تواند با دریافت prompt از کاربر تصویر موردنظر وی را بکشد (منبع).


۱۹. آپدیت ایلان ماسک از اپتیموس 👈 مشاهده اپتیموس در حال راه رفتن


۲۰. قابلیت‌های هوش‌مصنوعی تلفن‌ همراه Galaxy S24 Ultra که اخیراً معرفی شد. 👈 مشاهده ویدئو


۲۱. معرفی چت‌بات Rufus آمازون

آمازون نسخه بتا چت‌بات جدیدی به نام Rufus را برای عده محدودی از خریداران فروشگاه آنلاین خود در دسترس قرار داد. این چت‌بات می‌تواند به سوالات مختلفی درباره کالا و مقایسه آن پاسخ دهد. چت‌بات Rufus از اطلاعاتی نظیر ریویو کاربران، پرسش و پاسخ کامیونیتی و اطلاعات لیست شده محصول برای پاسخ دادن استفاده می‌کند (منبع خبر).



اگر مایل به دریافت خبرنامه هوش‌مصنوعی دومان در پست‌الکترونیک خود هستید از اینجا ثبت‌نام کنید. همچنین می‌توانید با عضویت در کانال تلگرام این خبرنامه در سریع‌ترین زمان در جریان اخبار جدید قرار بگیرید. برای مطالعه شماره‌های قبلی اینجا را نگاه کنید.