هوش مصنوعی هنوز نتوانسته از پس درک موقعیتهای اجتماعی پیچیده و پویای انسانی برآید، و این ضعف، آیندهٔ آن در حوزههایی مانند موترهای خودران و رباتهای کمکرسان را به چالش میکشد.
به نقل از سایتکدیلی، پژوهشگران دانشگاه جانز هاپکینز در مطالعهای جدید دریافتند که انسانها در تفسیر و توصیف تعاملات اجتماعی بسیار بهتر از سامانههای فعلی هوش مصنوعی عمل میکنند. این توانایی برای کاربردهایی چون موترهای خودران یا رباتهایی که باید در محیطهای واقعی با انسانها تعامل داشته باشند، حیاتی است.
گفتنی است این مطالعه نشان میدهد که سامانههای کنونی هوش مصنوعی نمیتوانند پویاییهای اجتماعی ظریف و نشانههای زمینهای تعاملات انسانی را بهدرستی درک کنند. بر این اساس، این ناتوانی شاید به ساختار زیرساختی و معماری بنیادین این مدلها بازگردد.
لیلا ایسیک میگوید: «برای نمونه، هوش مصنوعیِ بهکاررفته در یک موتر خودران باید بتواند نیت، هدف و رفتار عابران و رانندگان دیگر را تشخیص دهد. این سامانه باید بفهمد که آیا یک عابر قصد عبور دارد یا صرفاً ایستاده و با فردی صحبت میکند»،
او میافزاید: «هر زمان که بخواهید هوش مصنوعی با انسانها تعامل داشته باشد، باید بتواند بفهمد انسان چه میکند. فکر میکنم این تحقیق روشن میکند که سامانههای کنونی از عهدهٔ این کار برنمیآیند.»
کتی گارسیا (دانشجوی دکتری در آزمایشگاه ایسیک و یکی از نویسندگان اول مقاله) یافتههای این پژوهش را در تاریخ ۵ ثور ، در «کنفرانس بینالمللی بازنماییهای یادگیری» ارائه کرده است.
در این پژوهش، شرکتکنندگان انسانی کلیپهای کوتاه سهثانیهای را تماشا کردند و براساس شاخصهایی که برای درک تعامل اجتماعی مهم بودند، به آنها از ۱ تا ۵ امتیاز دادند. این کلیپها شامل افرادی بودند که یا با هم تعامل داشتند، یا در کنار هم فعالیتی انجام میدادند، یا مستقل از یکدیگر مشغول کاری بودند.
پژوهشگران سپس از بیش از ۳۵۰ مدل هوش مصنوعی در حوزههای زبان، تصویر و ویدیو خواستند تا پیشبینی کنند که انسانها در مواجهه با این کلیپها چه قضاوتی دارند و مغز آنها چه واکنشی نشان میدهد. در مورد مدلهای زبانی، هوش مصنوعی باید شرحهای کوتاه انسانی را ارزیابی میکرد.
اغلب انسانها در پاسخهای خود با یکدیگر توافق داشتند، اما مدلهای هوش مصنوعی—با وجود تفاوت در حجم داده یا معماریشان—در ارائهٔ پاسخهای مشابه با انسانها ناتوان بودند.
مدلهای ویدیویی نتوانستند دقیقاً توضیح دهند که در ویدیوها چه رخ میدهد. حتی مدلهای تصویری که توالی قابهای ثابت را دریافت کرده بودند، نتوانستند تشخیص دهند که آیا افراد در حال گفتگو هستند یا نه.
پژوهشگران معتقدند این نتایج در تضاد با موفقیتهای هوش مصنوعی در تحلیل تصاویر ایستا است. گارسیا اظهار میدارد: «دیدن تصویر و تشخیص چهره و اشیا، گام اول در توسعهٔ هوش مصنوعی بود که تا حد زیادی پیش رفت، اما زندگی واقعی ایستا نیست. ما به هوش مصنوعی نیاز داریم که بتواند داستان در حال وقوع در یک صحنه را درک کند. فهم روابط، زمینهها و پویایی تعاملات اجتماعی، گام بعدی است؛ و این تحقیق نشان میدهد که در این مرحله، مدلهای کنونی دچار یک نقطهضعف اساسی هستند.»
گفتنی است یکی از دلایل احتمالی این خلأ، این است که شبکههای عصبی مصنوعی برپایهٔ ساختار بخشی از مغز طراحی شدهاند که به پردازش تصاویر ایستا اختصاص دارد؛ در حالی که درک صحنههای اجتماعی پویا نیازمند فعالسازی بخش دیگری از مغز انسان است.
ایسیک در پایان میافزاید: «در این زمینه جزئیات زیادی وجود دارد، اما پیام کلی این است که هیچکدام از مدلهای هوش مصنوعی نتوانستهاند بهصورت فراگیر واکنشهای رفتاری و مغزی انسانها را—در مواجهه با صحنههای پویا—تقلید کنند، آنطور که در مورد تصاویر ایستا موفق بودند. بهنظر میرسد یک عنصر بنیادین در نحوهٔ پردازش صحنهها توسط انسان وجود دارد که در مدلهای کنونی غایب است.»