هوش مصنوعی جمینی جدید گوگل در 57 موضوع از GPT و متخصصان انسانی پیشی می گیرد

گوگل از هوش مصنوعی نسل بعدی Gemini خود پرده برداری کرد و ادعا کرد که تقریباً در تمام آزمایشات اصلی از GPT-4 OpenAI – و همچنین متخصصان انسانی – بهتر عمل می کند. تصاویر، ویدئو و صدا و همچنین متن و کد را درک می کند و به مرور زمان حواس دیگر را به دست می آورد.

با امتیاز 90.0٪ در آزمون MMLU (درک زبان چندوظیفه ای عظیم)، این اولین مدلی است که از متخصصان انسانی (89.8٪) و همچنین GPT-4 (86.4٪) در مجموعه ای از وظایف برای دانش و حل مسئله بهتر عمل می کند. در طیف وسیعی از 57 موضوع از جمله ریاضیات، فیزیک، تاریخ، حقوق، پزشکی و اخلاق. اینها متخصص هستند نه افراد معمولی.

Gemini از ابتدا چندوجهی است – به این معنی که مجموعه داده آموزشی اصلی آن علاوه بر متن حاوی بسیاری از رسانه های دیگر است. بنابراین می توان گفت که او به همان اندازه که در متن مسلط است در «درک» دیداری و شنیداری نیز مسلط است. در حالی که سایر مدل‌های زبانی تمایل دارند هنگام مشاهده ویدیو و تصاویر، از نظر متنی «فکر کنند»، Gemini تمام لحن و تفاوت‌های ظریف منابع ویدیو، صدا و تصویر اصلی را حفظ می‌کند.

در حالی که ویدیوی زیر نمایشی نرم از محصول است و بنابراین باید با کمی نمک تهیه شود، ارزش تماشای آن را دارد تا به شما ایده ای از معنای واقعی این چندوجهی ارائه دهد.

https://www.youtube.com/watch?v=UIZAiXYceBI

عملی با Gemini: تعامل با هوش مصنوعی چندوجهی

امتیاز اینجا چنده؟ خوب، هوش مصنوعی با مجموعه‌ای از داده‌های حسی در حال گسترش آموزش داده می‌شود تا فرآیندهایی را تقلید کند که توسط آن انسان‌ها تعامل با جهان را یاد می‌گیرند. با درک دیداری و شنیداری سطح بعدی، ادراک و استدلال برج جوزا جهشی به جلو می کند. هنگامی که این مورد به دستگاه‌های Google رسید – از تلفن‌های پیکسل بعدی – می‌تواند به انواع کارهای روزمره کمک کند.

و همانطور که Demis Hassabis، مدیر عامل Google Deepmind به Wired می گوید، این به زودی به حوزه حسی منطقی بعدی گسترش می یابد: بازخورد لمسی و لمسی. گوگل در حال حاضر یک بازیگر اصلی در رباتیک هوش مصنوعی است، اما تعبیه یک مدل فوق‌شناختی مانند جمینی با توانایی درک جهان از طریق لمس، رباتیک – انسان‌نما و غیره – را به قلمروی ناشناخته می‌برد.

چند وجهی بودن تنها ویژگی بنر در اینجا نیست، اما مانند GPT-4، Gemini آنچنان یک جک از همه چیز است که دشوار است بدانید از کجا شروع کنید. شاید با کمکی که می تواند به علم داشته باشد؟ در ویدئوی زیر، دانشمندان Deepmind نشان می‌دهند که چگونه Gemini می‌تواند کد خود را برای خواندن و تفسیر 200000 مطالعه علمی تولید کند، آنها را برای ارتباط با استفاده از قابلیت‌های استدلال خود فیلتر کند، و سپس داده‌ها را جمع‌آوری کرده و به طور کارآمد فرادانش جدیدی ایجاد کند. این تیم می‌گوید که این کار را در طول تعطیلات ناهار خود انجام می‌داده است و به سایر زمینه‌ها مانند حقوق مربوط می‌شود، جایی که مجموعه داده‌های عظیمی باید کاوش شود.

https://www.youtube.com/watch?v=sPiOP_CB54A

جمینی: باز کردن بینش ها در ادبیات علمی

در مورد کدنویسی، Gemini به برنامه نویسی Python، Java، C++ و Go مسلط است. در واقع، گوگل قبلاً نشان داده است که چگونه می‌تواند وب‌سایت‌هایی را ایجاد کند که به صورت پویا در پاسخ به آنچه که به نظر می‌رسد از آن‌ها می‌خواهید، کدنویسی می‌کنند. به نظر می رسد این یک رویکرد کاملاً جدید به اینترنت است. شما به صفحه‌ای می‌روید که به محض اینکه بداند چیست، به آنچه نیاز دارید تبدیل می‌شود.

ویدئوی نمایشی در اینجا از یک مورد استفاده نسبتاً سبک استفاده می‌کند: برنامه‌ریزی جشن تولد یک کودک. اما می‌توانید قدرت فوق‌العاده‌ای را که در آن گنجانده شده است ببینید و تصور کنید که چگونه می‌تواند رابط‌های کاربری گرافیکی را برای تقریباً هر کار قابل تصوری ایجاد کند. این کاری است که فقط هوش مصنوعی می تواند انجام دهد. مانند این است که یک توسعه دهنده برنامه وب درست در کنار شما بنشیند، اما بتواند صدها برابر سریعتر کار کند.

و مانند هر ابزار هوش مصنوعی، فوق العاده تعاملی است. اگر دقیقاً همان چیزی را که می‌خواهید به شما نمی‌دهد، می‌توانید به سادگی به آن بگویید و مطابق با خواسته‌های شما تنظیم می‌شود یا در مورد بهترین راه برای ادامه گفتگو درگیر می‌شوید. چیزهای خیره کننده و نگاهی به چگونگی تغییر اساسی تعامل ما با فناوری.

https://www.youtube.com/watch?v=v5tRc_5-8G4

جمینی: استدلال در مورد قصد کاربر برای ایجاد تجربیات شخصی

در مورد موضوع کدنویسی، Deepmind در پروژه ای به نام کارهای جالب دیگری با Gemini انجام داده است AlphaCode 2 (هشدار: پیوند یک گزارش فنی PDF است)که چندین مدل مختلف Gemini را می گیرد و آنها را به طور خاص در بخش های مختلف فرآیند برنامه نویسی آموزش می دهد.

اساسا، AlphaCode 2 مجموعه ای از عوامل برنامه نویسی را ایجاد می کند و آنها را قادر می سازد تا یک میلیون قطعه کد مختلف را برای حل یک مشکل تولید کنند. سپس از یک مدل جمینی جداگانه برای بررسی این کدهای نمونه استفاده می‌کند، تأیید می‌کند که آنها کامپایل شده‌اند، و آنها را بر اساس میزان عملکردشان در کار کدگذاری کلی رتبه‌بندی می‌کند و حدود 95 درصد از نمونه‌های ایجاد شده را رد می‌کند.

سپس یکی دیگر از مدل‌های Gemini حالتی را برای آزمایش کد و داده‌های تست نمونه ایجاد می‌کند و یک فرآیند آزمایش کامل را روی تمام نمونه‌های کد باقی‌مانده انجام می‌دهد و آنها را بر اساس «صحت» رتبه‌بندی می‌کند تا بهترین قطعات کد را پیدا کند. در واقع، Deepmind Gemini را به یک تیم نرم افزاری چندکاره تقسیم کرده است که هوش مصنوعی اختصاصی آن بر روی تجزیه و تحلیل نیازمندی ها، طراحی سیستم، تست، پیاده سازی و پشتیبانی و همچنین ارتش عظیمی از برنامه نویسان کار می کند.

عملکرد آن چگونه است؟ خوب، در یک مسابقه کدنویسی علیه انسان ها، 87 درصد از شرکت کنندگان دیگر را شکست داد، و آن را “در بین دسته های Codeforces’ Expert و Candidate Master” قرار داد. همانطور که دانشمندان Deepmind در ویدیوی زیر توضیح می دهند، این نوع رقابت بسیار بیشتر از مهارت های برنامه نویسی – آنها به درجات فوق العاده ای از درک منطقی و استفاده خلاقانه از ابزارهای نرم افزاری موجود نیاز دارند.

https://www.youtube.com/watch?v=LvGmVmHv69s

جمینی: اکسل در برنامه نویسی رقابتی

توجه داشته باشید که AlphaCode 2 بلافاصله یا هرگز به شکل فعلی در دسترس عموم قرار نخواهد گرفت. همانطور که می توانید تصور کنید، تولید یک میلیون قطعه کد، قدرت محاسباتی زیادی را می سوزاند و برای انتشار عمومی بسیار گران است. اما آنچه در اینجا جالب است این است که به نظر نمی رسد میزان موفقیت به یک میلیون قطعه کاهش یافته باشد – در واقع، به نظر می رسد که AlphaCode اگر به میلیاردها یا تریلیون ها برسد به بهبود نتایج خود ادامه خواهد داد. این یک روش فوق العاده ناکارآمد برای انجام کارها است، اما با سرعت کورکورانه پیشرفت در این زمینه، مطمئناً به زودی راه هوشمندتری وجود خواهد داشت.

Deepmind می گوید که در حال بررسی این است که چگونه یک نسخه کارآمد می تواند در مدل های عمومی معرفی شود.

باز هم هست؛ یک تن بیشتر وجود دارد اما این باید به شما ایده دهد که گوگل چه چیزی را در اینجا وعده می دهد. گوگل قصد دارد آن را در سه اندازه مدل عرضه کند: Gemini Nano، طراحی شده برای نصب مستقیم بر روی دستگاه های تلفن همراه، Gemini Pro – معادل تقریبی GPT 3.5، که مدل اصلی کار برای اکثر وظایف خواهد بود، و Gemini Ultra، بیشترین مدل بزرگی که گوگل می‌گوید GPT-4 را در طیف وسیعی از معیارها شکست می‌دهد – حتی در تست‌های چندوجهی به مراتب بیشتر از چالش‌های متنی عقب مانده است.

Gemini Ultra قرار است پس از آزمایش‌های دقیق‌تر از نظر ایمنی و هم‌ترازی، سال آینده عرضه عمومی شود. سپس شروع خواهیم کرد به درک اینکه GPT در کجا برتری دارد و کجا کوتاه است. در همین حال، Gemini Nano اکنون در دسترس است پیکسل 8 پرو گوشی هوشمند و شروع به انتشار به دیگران خواهد کرد.

با این حال، Gemini Pro در حال حاضر، به صورت رایگان، برای هر کسی که دارای حساب Google از طریق آن است در دسترس است گوگل بارد سرویس. این یک نسخه حذف‌شده است، متأسفانه فقط می‌تواند تصاویر را آپلود کند، نه اسناد، صدا یا ویدیو، اما گوگل می‌گوید که به زودی قابلیت‌های جدیدی را اضافه می‌کند. اکنون با اجازه شما به کار با Gmail، Google Drive و Google Docs و همچنین رزرو پرواز و هتل، Google Maps و YouTube دسترسی دارد، جایی که به شما امکان می دهد در مورد ویدیوها تعامل داشته باشید و سؤال بپرسید.

و بله، گوگل در تلاش است تا مدل جمینی را در تقریباً هر محصولی که می‌سازد ادغام کند.

دست و پنجه نرم کنید، این ترن هوایی فقط می داند چگونه شتاب بگیرد.

https://www.youtube.com/watch?v=jV1vkHv4zq8

جمینی: جدیدترین و تواناترین مدل هوش مصنوعی گوگل

منبع: گوگل

Source link