چگونه از هوش مصنوعی برای کشف استفاده کنیم - بدون فریب دادن علم

در دهه گذشته، هوش مصنوعی تقریباً در هر گوشه‌ای از علم نفوذ کرده است: مدل‌های یادگیری ماشینی برای پیش‌بینی ساختارهای پروتئینی، تخمین مقدار جنگل‌های بارانی آمازون که در اثر جنگل‌زدایی از بین رفته است، و حتی طبقه‌بندی کهکشان‌های دوردست که ممکن است خانه سیارات فراخورشیدی باشند، استفاده شده است. .

اما در حالی که می توان از هوش مصنوعی برای تسریع اکتشافات علمی استفاده کرد – با کمک به محققان در پیش بینی پدیده هایی که ممکن است مطالعه آنها در دنیای واقعی دشوار یا پرهزینه باشد – همچنین می تواند دانشمندان را گمراه کند. همانطور که ربات‌های چت گاهی اوقات «توهم» می‌کنند یا چیزهایی را می‌سازند، مدل‌های یادگیری ماشینی گاهی اوقات می‌توانند نتایج گمراه‌کننده یا آشکارا نادرست ارائه دهند.

در مقاله ای که امروز (پنجشنبه 9 نوامبر) به صورت آنلاین در علوم پایهمحققان دانشگاه کالیفرنیا، برکلی، یک تکنیک آماری جدید برای استفاده ایمن از پیش‌بینی‌های حاصل از مدل‌های یادگیری ماشین برای آزمایش فرضیه‌های علمی ارائه می‌کنند.

این تکنیک که استنتاج پیش‌بینی‌کننده (PPI) نامیده می‌شود، از مقدار کمی از داده‌های دنیای واقعی برای تنظیم خروجی مدل‌های بزرگ و عمومی – مانند AlphaFold که ساختارهای پروتئین را پیش‌بینی می‌کند – در چارچوب سؤالات علمی خاص استفاده می‌کند.

این مدل‌ها کلی هستند: آن‌ها می‌توانند به سؤالات زیادی پاسخ دهند، اما ما نمی‌دانیم به کدام سؤالات خوب و به کدام‌ها بد پاسخ می‌دهند – و اگر ساده‌لوحانه از آنها استفاده کنید بدون اینکه بدانید در کدام مورد هستید، مایکل جردن، پهونگ چن، استاد برجسته مهندسی برق و علوم کامپیوتر و آمار در دانشگاه کالیفرنیا، برکلی، نویسنده این مطالعه، گفت: “با PPI، می‌توانید از مدل استفاده کنید اما خطاهای احتمالی را حتی تصحیح کنید. زمانی که در همان ابتدا ماهیت آن اشتباهات را نمی دانید.

خطر سوگیری پنهان

وقتی دانشمندان آزمایش‌هایی را انجام می‌دهند، فقط به دنبال یک پاسخ نیستند، بلکه می‌خواهند طیفی از پاسخ‌های قابل قبول را دریافت کنند. این کار با محاسبه یک «فاصله اطمینان» انجام می‌شود که در ساده‌ترین حالت می‌توان آزمایش را بارها تکرار کرد و مشاهده کرد که چگونه نتایج متفاوت است.

در بیشتر تحقیقات علمی، فاصله اطمینان معمولاً به یک آمار خلاصه یا ترکیبی اشاره دارد نه به نقاط داده فردی. متأسفانه، سیستم‌های یادگیری ماشینی بر روی نقاط داده‌ای منفرد تمرکز می‌کنند و بنابراین انواع تخمین‌های عدم قطعیت مورد علاقه دانشمندان را در اختیار دانشمندان قرار نمی‌دهند. به عنوان مثال، AlphaFold ساختار یک پروتئین واحد را پیش‌بینی می‌کند، اما بینش اطمینانی در مورد آن ساختار، و همچنین راهی برای به دست آوردن فواصل اطمینان که به خواص کلی پروتئین‌ها مربوط می‌شود، ارائه نمی‌کند.

دانشمندان ممکن است وسوسه شوند که از پیش‌بینی‌های AlphaFold به گونه‌ای استفاده کنند که گویی داده‌ها برای محاسبه فواصل اطمینان کلاسیک هستند، و این واقعیت را نادیده می‌گیرند که این پیش‌بینی‌ها داده نیستند. مشکل این رویکرد این است که سیستم‌های یادگیری ماشینی دارای سوگیری‌های پنهان زیادی هستند که می‌توانند نتایج را منحرف کنند. این سوگیری ها تا حدی ناشی از داده هایی است که بر روی آنها آموزش دیده اند، که معمولاً تحقیقات موجود است که ممکن است تمرکز مشابهی با مطالعه فعلی نداشته باشد.

جردن گفت: «در واقع، در مسائل علمی، ما اغلب به پدیده‌هایی علاقه‌مندیم که در مرز بین معلوم و ناشناخته قرار دارند. اغلب داده‌های گذشته زیادی در این لبه وجود ندارد، و این باعث می‌شود مدل‌های هوش مصنوعی مولد بیشتر احتمال «توهم» داشته باشند و نتیجه‌ای غیرواقعی ایجاد کند.»

محاسبه فواصل اطمینان معتبر

PPI به دانشمندان اجازه می‌دهد تا پیش‌بینی‌های مدل‌هایی مانند AlphaFold را بدون هیچ گونه فرضی در مورد نحوه ساخت مدل یا داده‌هایی که بر روی آن آموزش دیده‌اند، ترکیب کنند. برای انجام این کار، PPI به مقدار کمی داده نیاز دارد که با توجه به فرضیه خاص مورد بررسی، همراه با پیش‌بینی‌های یادگیری ماشین مربوط به آن داده، بی‌طرفانه باشد. با ترکیب این دو منبع شواهد، PPI قادر به تشکیل فواصل اطمینان معتبر است.

برای مثال، تیم تحقیقاتی از تکنیک PPI برای الگوریتم‌هایی استفاده کرد که می‌توانند مناطق جنگل‌زدایی در آمازون را با استفاده از تصاویر ماهواره‌ای تعیین کنند. این مدل ها به طور کلی زمانی دقیق بودند که به صورت جداگانه بر روی مناطق جنگلی آزمایش شدند. با این حال، هنگامی که این تخمین ها برای تخمین جنگل زدایی در سراسر آمازون ترکیب شدند، فواصل اطمینان بسیار کج شد. این احتمالاً به این دلیل است که این مدل برای تشخیص برخی از الگوهای جنگل‌زدایی اخیر تلاش کرده است.

با PPI، تیم قادر به تصحیح سوگیری در فاصله اطمینان با استفاده از تعداد کمی از مناطق جنگل‌زدایی مشخص‌شده توسط انسان بود.

این تیم همچنین نشان داد که چگونه می‌توان این تکنیک را در انواع مطالعات دیگر، از جمله سوالاتی در مورد تاخوردگی پروتئین، طبقه‌بندی کهکشان‌ها، سطح بیان ژن، تعداد پلانکتون‌ها و رابطه بین درآمد و بیمه سلامت خصوصی به کار برد.

جردن گفت: «واقعاً هیچ محدودیتی برای نوع سؤالاتی که این رویکرد می تواند برای آنها اعمال شود، وجود ندارد. ما معتقدیم که PPI جزء بسیار مورد نیاز علم مدرن است که شامل داده‌ها، مدل‌ها و علم مشارکتی فشرده است.

نویسندگان دیگر شامل Anastasios N. Angelopoulos، Stephen Bates، Clara Fannjiang و تیجانا Zrnic از UC Berkeley هستند. این تحقیق توسط دفتر تحقیقات دریایی (N00014-21-1-2840) و بنیاد ملی علوم پشتیبانی شد.

Source link

شاید دوست داشته باشید

ترویج تنوع و گنجاندن از طریق STEM > مرکز تحقیق و توسعه مهندسی > اخبار

صدمات و ناهنجاری های زمین جنوب غربی در رودخانه موهاوی کالیفرنیا

ارتقاء CO2