گوگل از هوش مصنوعی نسل بعدی Gemini خود پرده برداری کرد و ادعا کرد که تقریباً در تمام آزمایشات اصلی از GPT-4 OpenAI – و همچنین متخصصان انسانی – بهتر عمل می کند. تصاویر، ویدئو و صدا و همچنین متن و کد را درک می کند و به مرور زمان حواس دیگر را به دست می آورد.
با امتیاز 90.0٪ در آزمون MMLU (درک زبان چندوظیفه ای عظیم)، این اولین مدلی است که از متخصصان انسانی (89.8٪) و همچنین GPT-4 (86.4٪) در مجموعه ای از وظایف برای دانش و حل مسئله بهتر عمل می کند. در طیف وسیعی از 57 موضوع از جمله ریاضیات، فیزیک، تاریخ، حقوق، پزشکی و اخلاق. اینها متخصص هستند نه افراد معمولی.
Gemini از ابتدا چندوجهی است – به این معنی که مجموعه داده آموزشی اصلی آن علاوه بر متن حاوی بسیاری از رسانه های دیگر است. بنابراین می توان گفت که او به همان اندازه که در متن مسلط است در «درک» دیداری و شنیداری نیز مسلط است. در حالی که سایر مدلهای زبانی تمایل دارند هنگام مشاهده ویدیو و تصاویر، از نظر متنی «فکر کنند»، Gemini تمام لحن و تفاوتهای ظریف منابع ویدیو، صدا و تصویر اصلی را حفظ میکند.
در حالی که ویدیوی زیر نمایشی نرم از محصول است و بنابراین باید با کمی نمک تهیه شود، ارزش تماشای آن را دارد تا به شما ایده ای از معنای واقعی این چندوجهی ارائه دهد.
عملی با Gemini: تعامل با هوش مصنوعی چندوجهی
امتیاز اینجا چنده؟ خوب، هوش مصنوعی با مجموعهای از دادههای حسی در حال گسترش آموزش داده میشود تا فرآیندهایی را تقلید کند که توسط آن انسانها تعامل با جهان را یاد میگیرند. با درک دیداری و شنیداری سطح بعدی، ادراک و استدلال برج جوزا جهشی به جلو می کند. هنگامی که این مورد به دستگاههای Google رسید – از تلفنهای پیکسل بعدی – میتواند به انواع کارهای روزمره کمک کند.
و همانطور که Demis Hassabis، مدیر عامل Google Deepmind به Wired می گوید، این به زودی به حوزه حسی منطقی بعدی گسترش می یابد: بازخورد لمسی و لمسی. گوگل در حال حاضر یک بازیگر اصلی در رباتیک هوش مصنوعی است، اما تعبیه یک مدل فوقشناختی مانند جمینی با توانایی درک جهان از طریق لمس، رباتیک – انساننما و غیره – را به قلمروی ناشناخته میبرد.
چند وجهی بودن تنها ویژگی بنر در اینجا نیست، اما مانند GPT-4، Gemini آنچنان یک جک از همه چیز است که دشوار است بدانید از کجا شروع کنید. شاید با کمکی که می تواند به علم داشته باشد؟ در ویدئوی زیر، دانشمندان Deepmind نشان میدهند که چگونه Gemini میتواند کد خود را برای خواندن و تفسیر 200000 مطالعه علمی تولید کند، آنها را برای ارتباط با استفاده از قابلیتهای استدلال خود فیلتر کند، و سپس دادهها را جمعآوری کرده و به طور کارآمد فرادانش جدیدی ایجاد کند. این تیم میگوید که این کار را در طول تعطیلات ناهار خود انجام میداده است و به سایر زمینهها مانند حقوق مربوط میشود، جایی که مجموعه دادههای عظیمی باید کاوش شود.
جمینی: باز کردن بینش ها در ادبیات علمی
در مورد کدنویسی، Gemini به برنامه نویسی Python، Java، C++ و Go مسلط است. در واقع، گوگل قبلاً نشان داده است که چگونه میتواند وبسایتهایی را ایجاد کند که به صورت پویا در پاسخ به آنچه که به نظر میرسد از آنها میخواهید، کدنویسی میکنند. به نظر می رسد این یک رویکرد کاملاً جدید به اینترنت است. شما به صفحهای میروید که به محض اینکه بداند چیست، به آنچه نیاز دارید تبدیل میشود.
ویدئوی نمایشی در اینجا از یک مورد استفاده نسبتاً سبک استفاده میکند: برنامهریزی جشن تولد یک کودک. اما میتوانید قدرت فوقالعادهای را که در آن گنجانده شده است ببینید و تصور کنید که چگونه میتواند رابطهای کاربری گرافیکی را برای تقریباً هر کار قابل تصوری ایجاد کند. این کاری است که فقط هوش مصنوعی می تواند انجام دهد. مانند این است که یک توسعه دهنده برنامه وب درست در کنار شما بنشیند، اما بتواند صدها برابر سریعتر کار کند.
و مانند هر ابزار هوش مصنوعی، فوق العاده تعاملی است. اگر دقیقاً همان چیزی را که میخواهید به شما نمیدهد، میتوانید به سادگی به آن بگویید و مطابق با خواستههای شما تنظیم میشود یا در مورد بهترین راه برای ادامه گفتگو درگیر میشوید. چیزهای خیره کننده و نگاهی به چگونگی تغییر اساسی تعامل ما با فناوری.
جمینی: استدلال در مورد قصد کاربر برای ایجاد تجربیات شخصی
در مورد موضوع کدنویسی، Deepmind در پروژه ای به نام کارهای جالب دیگری با Gemini انجام داده است AlphaCode 2 (هشدار: پیوند یک گزارش فنی PDF است)که چندین مدل مختلف Gemini را می گیرد و آنها را به طور خاص در بخش های مختلف فرآیند برنامه نویسی آموزش می دهد.
اساسا، AlphaCode 2 مجموعه ای از عوامل برنامه نویسی را ایجاد می کند و آنها را قادر می سازد تا یک میلیون قطعه کد مختلف را برای حل یک مشکل تولید کنند. سپس از یک مدل جمینی جداگانه برای بررسی این کدهای نمونه استفاده میکند، تأیید میکند که آنها کامپایل شدهاند، و آنها را بر اساس میزان عملکردشان در کار کدگذاری کلی رتبهبندی میکند و حدود 95 درصد از نمونههای ایجاد شده را رد میکند.
سپس یکی دیگر از مدلهای Gemini حالتی را برای آزمایش کد و دادههای تست نمونه ایجاد میکند و یک فرآیند آزمایش کامل را روی تمام نمونههای کد باقیمانده انجام میدهد و آنها را بر اساس «صحت» رتبهبندی میکند تا بهترین قطعات کد را پیدا کند. در واقع، Deepmind Gemini را به یک تیم نرم افزاری چندکاره تقسیم کرده است که هوش مصنوعی اختصاصی آن بر روی تجزیه و تحلیل نیازمندی ها، طراحی سیستم، تست، پیاده سازی و پشتیبانی و همچنین ارتش عظیمی از برنامه نویسان کار می کند.
عملکرد آن چگونه است؟ خوب، در یک مسابقه کدنویسی علیه انسان ها، 87 درصد از شرکت کنندگان دیگر را شکست داد، و آن را “در بین دسته های Codeforces’ Expert و Candidate Master” قرار داد. همانطور که دانشمندان Deepmind در ویدیوی زیر توضیح می دهند، این نوع رقابت بسیار بیشتر از مهارت های برنامه نویسی – آنها به درجات فوق العاده ای از درک منطقی و استفاده خلاقانه از ابزارهای نرم افزاری موجود نیاز دارند.
جمینی: اکسل در برنامه نویسی رقابتی
توجه داشته باشید که AlphaCode 2 بلافاصله یا هرگز به شکل فعلی در دسترس عموم قرار نخواهد گرفت. همانطور که می توانید تصور کنید، تولید یک میلیون قطعه کد، قدرت محاسباتی زیادی را می سوزاند و برای انتشار عمومی بسیار گران است. اما آنچه در اینجا جالب است این است که به نظر نمی رسد میزان موفقیت به یک میلیون قطعه کاهش یافته باشد – در واقع، به نظر می رسد که AlphaCode اگر به میلیاردها یا تریلیون ها برسد به بهبود نتایج خود ادامه خواهد داد. این یک روش فوق العاده ناکارآمد برای انجام کارها است، اما با سرعت کورکورانه پیشرفت در این زمینه، مطمئناً به زودی راه هوشمندتری وجود خواهد داشت.
Deepmind می گوید که در حال بررسی این است که چگونه یک نسخه کارآمد می تواند در مدل های عمومی معرفی شود.
باز هم هست؛ یک تن بیشتر وجود دارد اما این باید به شما ایده دهد که گوگل چه چیزی را در اینجا وعده می دهد. گوگل قصد دارد آن را در سه اندازه مدل عرضه کند: Gemini Nano، طراحی شده برای نصب مستقیم بر روی دستگاه های تلفن همراه، Gemini Pro – معادل تقریبی GPT 3.5، که مدل اصلی کار برای اکثر وظایف خواهد بود، و Gemini Ultra، بیشترین مدل بزرگی که گوگل میگوید GPT-4 را در طیف وسیعی از معیارها شکست میدهد – حتی در تستهای چندوجهی به مراتب بیشتر از چالشهای متنی عقب مانده است.
Gemini Ultra قرار است پس از آزمایشهای دقیقتر از نظر ایمنی و همترازی، سال آینده عرضه عمومی شود. سپس شروع خواهیم کرد به درک اینکه GPT در کجا برتری دارد و کجا کوتاه است. در همین حال، Gemini Nano اکنون در دسترس است پیکسل 8 پرو گوشی هوشمند و شروع به انتشار به دیگران خواهد کرد.
با این حال، Gemini Pro در حال حاضر، به صورت رایگان، برای هر کسی که دارای حساب Google از طریق آن است در دسترس است گوگل بارد سرویس. این یک نسخه حذفشده است، متأسفانه فقط میتواند تصاویر را آپلود کند، نه اسناد، صدا یا ویدیو، اما گوگل میگوید که به زودی قابلیتهای جدیدی را اضافه میکند. اکنون با اجازه شما به کار با Gmail، Google Drive و Google Docs و همچنین رزرو پرواز و هتل، Google Maps و YouTube دسترسی دارد، جایی که به شما امکان می دهد در مورد ویدیوها تعامل داشته باشید و سؤال بپرسید.
و بله، گوگل در تلاش است تا مدل جمینی را در تقریباً هر محصولی که میسازد ادغام کند.
دست و پنجه نرم کنید، این ترن هوایی فقط می داند چگونه شتاب بگیرد.
جمینی: جدیدترین و تواناترین مدل هوش مصنوعی گوگل
منبع: گوگل