وقتی هوش مصنوعی فراموش می‌كند؛ همه‌چیز درباره فراموشی ماشین

فراموشی ماشین (Machine Unlearning) می‌تواند به راه‌حلی مؤثر برای مشكل آموزش مدل‌های هوش‌ مصنوعی با داده‌های نامطلوب، گمراه‌كننده یا آسیب‌زا تبدیل شود.

وقتی هوش مصنوعی فراموش می‌كند؛ همه‌چیز درباره فراموشی ماشینمقالات بلند و اختصاصیفناوریهوش مصنوعییك‌شنبه ۴ آذر ۱۴۰۳ - ۱۳:۳۰مطالعه 19 دقیقهپویش پورمحمدتبلیغاتمشاهده همه ویدئو‌هاتبلیغاتتبلیغاتفراموشی ماشین (Machine Unlearning) می‌تواند به راه‌حلی مؤثر برای مشكل آموزش مدل‌های هوش‌ مصنوعی با داده‌های نامطلوب، گمراه‌كننده یا آسیب‌زا تبدیل شود .

تبلیغاتدر دو سال گذشته شاهد بودیم كه چگونه مدل‌های یادگیری عمیق انقلاب هوش مصنوعی را رقم زدند و طیف وسیعی از امكانات كاربردی را، از ابزارهای جدید جست‌وجو گرفته تا مولدهای تصویر، در دسترس ما گذاشتند؛ اما هرچه هم این مدل‌ها را شگفت‌انگیز و كارآمد بدانیم، بازهم قدرت بالای آن‌ها در به‌ خاطر سپردن و تكرار دقیق داده‌های آموزشی، به شمشیری دو لبه تبدیل شده و چالش‌هایی جدی را در این حوزه‌ی نوظهور مطرح كرده است .

مدل‌های هوش مصنوعی مانند GPT-4o یا Llama 3.1 با حجم غیرقابل‌ وصفی از داده تعلیم دیده‌اند تا بتوانند به بهترین شكل ممكن، درخواست‌های ما را پاسخ دهند؛ اما اگر نیاز باشد زمانی این اطلاعات از حافظه‌ی مدل‌ها پاك شوند، دردسرها شروع می‌شود .

برای مثال فرض كنید مدل یادگیری ماشین شما به‌طور تصادفی با داده‌هایی شامل اطلاعات بانكی شخصی، آموزش‌ دیده است. چگونه می‌توانید بدون اینكه مدل را مجدداً آموزش دهید، این اطلاعات خاص را پاك كنید؟خوشبختانه حالا محققان در حوزه‌ی جدیدی با نام Machine Unlearning یا «فراموشی ماشین» روی این مشكل كار می‌كنند .

فراموشی یا یادگیری‌زدایی ماشین حوزه‌ای نوظهور اما حیاتی محسوب می‌شود كه بازیگران مهمی در حال ورود به آن هستند. در ادامه با ما همراه باشید تا نگاه نزدیك‌تری به این مفهوم داشته باشیم و ببینیم آیا مدل‌ های زبانی بزرگ واقعاً می‌توانند آموخته‌های خود را فراموش كنند؟فهرست مطالبمدل‌های زبانی چگونه تعلیم می‌بینند؟فراموشی ماشین (Machine Unlearning) چیست؟ ایده و انگیزه‌های فراموشی ماشینانواع راه‌های فراموشی ماشینچالش‌ها و محدودیت‌های فراموشی ماشینهنر فراموشی: مطالعات دنیای واقعیكپی لینكمدل‌های زبانی چگونه تعلیم می‌بینند؟حتی قوی‌ترین مدل‌های هوش مصنوعی مولد هم از هوش واقعی برخوردار نیستند .

شما می‌توانید آن‌ها را سیستم‌های آماری پیش‌بینی‌كننده‌ای بدانید كه قادرند كلمات، تصاویر، گفتار، موسیقی، ویدیو و سایر داده‌ها را تولید یا تكمیل كنند. این مدل‌ها با تحلیل تعداد زیادی مثال (مانند فیلم‌ها، صداهای ضبط‌شده، مقاله‌ها و نظیر آن) یاد می‌گیرند میزان احتمال وقوع داده‌های خاص را پیش‌بینی كنند .

آن‌ها الگوها را شناسایی می‌كنند و كانتكست پیرامون هر داده را در نظر می‌گیرند.مدل‌های هوش مصنوعی در اصل احتمال وقوع داده‌های خاص را پیش‌بینی می‌كنند برای مثال وقتی محتوای ایمیلی به عبارت «...Looking forward» (مشتاقِ .

..) می‌رسد، مدلی كه برای تكمیل خودكار پیام‌ها آموزش‌دیده، پیرو الگویی كه از ایمیل‌های مشابه شناسایی كرده است، عبارت «… to hearing back» (شنیدن پاسخ) را برای ادامه‌ی متن پیشنهاد می‌دهد. درواقع كاری كه مدل انجام می‌دهد آگاهی نیست، بلكه صرفاً حدسی هوشمندانه بر پایه‌ی آمار و الگوهای مشابه است .

بیشتر مدل‌ها از جمله پرچم‌دارانی مانند GPT-4o، بر مبنای داده‌هایی كه در وب‌سایت‌های عمومی و مجموعه‌های داده در سرتاسر وب منتشر شده‌اند، آموزش می‌بینند. اغلب شركت‌هایی كه از فروش اشتراك چت‌بات‌ها و ابزارهای AI كسب درآمد دارند، معتقدند جمع‌آوری داده‌ برای آموزش مدل‌ها «استفاده‌ی منصفانه» محسوب می‌شود و نیازی به اطلاع‌رسانی و اعتباردادن به مالكان محتوا و پرداخت كپی‌رایت ندارد .

بااین‌حال، بسیاری از ناشران و صاحبان سبك‌های هنری با این ادعا موافق نیستند و حقوق خود را با شكایات قانونی پیگیری می‌كنند.مدل‌های هوش مصنوعی در مرحله‌ی پیش‌آموزش، از حجم وسیعی از داده‌ها كه اصطلاحاً Corpus نامیده می‌شود، استفاده می‌كنند تا برای هر كلمه یا ویژگی، ارزش و وزن خاصی به‌دست آورند كه نشان‌دهنده‌ی اهمیت و ارتباط آن ویژگی‌ها در داده‌های مختلف است .

این داده‌ها مستقیماً تعیین می‌كنند كه مدل چه چیزی را درك خواهد كرد. پس از مرحله‌ی پیش‌آموزش، مدل برای بهبود نتایج پالایش می‌شود.مدل‌ها در مرحله‌ی پیش‌آموزش، برای هر كلمه یا ویژگی، ارزش و وزن خاصی به‌دست می‌آورنددر مورد مدل‌های مبتنی بر معماری ترنسفورمر مانند ChatGPT، این پالایش غالباً به شكل RLHF (یادگیری تقویتی با بازخورد انسانی) انجام می‌شود، بدین معنی كه انسان‌ها مستقیماً به مدل بازخورد می‌دهند تا پاسخ‌های آن را بهبود بخشند .

آموزش مدل‌های هوش مصنوعی، به قدرت پردازشی GPU‌ها نیاز دارد كه هم پرهزینه‌اند و هم هر روز كمیاب‌تر می‌شوند. مدتی پیش The Information هزینه‌های روزانه‌ی عملیاتی چت‌جی‌پی‌تی را ۷۰۰ هزار دلار برآورد كرده بود .

كپی لینكفراموشی ماشین (Machine Unlearning) چیست؟ محققان هدف اصلی فراموشی ماشین را حذف «تأثیرات» داده‌های آموزشی از یك مدل تعلیم‌دیده توصیف می‌كنند. به عبارتی با یادگیری‌زدایی از یك مدل خاص، باید به رفتاری مشابه با مدل دیگری برسیم كه با «همان مجموعه اطلاعات اصلی، منهای برخی اطلاعات نامطلوب» تعلیم‌دیده باشد .

بااین‌حال در این تعریف باید به برخی نكات توجه كنیم:چگونه می‌توان اطلاعاتی را كه باید فراموش شوند، به‌درستی مشخص كرد؟ آیا همیشه امكان دسترسی به مدل‌هایی كه براساس داده‌های واقعی آموزش دیده‌اند، وجود دارد؟ آیا همیشه مدل‌های بازآموزی‌شده معتبری در اختیار داریم و اگر نه، چگونه واقعاً یادگیری‌زدایی را ارزیابی كنیم؟هدف اصلی فراموشی ماشین حذف «تأثیرات» برخی از داده‌های آموزشی از یك مدل تعلیم‌دیده استآیا اصولاً می‌توانیم یادگیری‌زدایی را تأیید و كنترل كنیم؟ اگر مدل‌ها صرفاً «تظاهر» به فراموشی كنند، برای نتیجه‌ی امن و مطلوب كافی است؟ درنهایت، فراموشی ماشین چه مواقعی راه‌حل مفیدی محسوب می‌شود؟كپی لینكایده و انگیزه‌های فراموشی ماشینایده‌ی فراموشی مدل‌های یادگیری ماشین، از سال ۲۰۱۴ و با مصوبه‌ی «حق فراموش‌شدن» در ماده‌ی ۱۷ قانون GDPR اتحادیه اروپا آغاز شد .

در آن زمان مسئله این بود كه كاربران بتوانند از ارائه‌دهندگان خدمات آنلاین بخواهند داده‌های موردنظرشان را از سیستم‌ها حذف كنند.اما باید توجه داشته باشیم كه «حق فراموش‌شدن» در ابتدا با هدف حذف اطلاعات در سیستم‌های منظم و ساختاریافته، مانند داده‌های حساب كاربری در سرویس‌هایی مانند جیمیل، طراحی شده بود و نه برای مدل‌های یادگیری عمیق كه داده‌ها را به‌صورت پیچیده و درهم‌آمیخته ذخیره می‌كنند .

همین پیچیدگی باعث شد كه محققان روش‌های حذف داده‌ها و فراموشی ماشین را مورد مطالعه قرار دهند. حالا در سال ۲۰۲۴، انگیزه‌ی فراموشی در مدل‌ها صرفاً به حفظ حریم خصوصی محدود نمی‌شود. با توسعه‌ی مدل‌های بزرگ كه براساس مجموعه‌های داده‌ی متنوعی شامل محتواهای دارای كپی‌رایت، مطالب خطرناك یا توهین‌آمیز آموزش داده شده‌اند، نیاز به فراموشی بخش‌هایی از این داده‌ها یك ضرورت محسوب می‌شود .

به‌طوركلی، انگیزه‌های فراموشی ماشین را می‌توان به دو دسته تقسیم كرد:لغو دسترسی: فراموشی داده‌های خصوصی و دارای كپی‌رایتدر دنیای ایده‌آل، شاید می‌توانستیم داده‌ها را به‌عنوان اطلاعاتی كه به امانت گرفته می‌شوند در نظر بگیریم .

در این صورت فراموشی ماشین با این هدف دنبال می‌شد كه این امانت‌ها را به صاحبانشان بازگرداند.اما به دلیل پیچیدگی‌های یادگیری عمیق، داده‌های وارد شده به مدل بیشتر به «اقلام مصرف‌شده» شباهت دارند و بازگرداندن چیزی كه مصرف شده، چندان آسان نیست .

حتی برخی داده‌ها مثل تاریخچه‌ی چت‌های شخصی غیرقابل‌جایگزینی هستند و بهای آن‌ها به هر فرد بستگی دارد.در بخش محتوای دارای كپی‌رایت، داده‌های آموزشی به «اقلام مصرف‌شده»ای شباهت دارند كه بازگرداندن آن‌ها ساده نیستبرای درك این مفهوم، به مثالی ساده توجه كنید: اگر «باب چیزكیك آلیس را خورد» را معادل «داده» بگیریم، اقدامی نظیر «آلیس ترجیح می‌دهد باب به او پول بدهد یا چیزی معادلش را برگرداند»، معادل جبران خسارت یا حق مالی مالك داده خواهد بود .

زیرا امكان بازگرداندن چیزی كه باب خورده یا همان فراموشی ماشین، بسیار غیرمنطقی و دشوار می‌شود.در این حالت، احتمالاً خلق جایگزین‌هایی مانند بازارهای داده كه در آن حق مالكان داده به‌درستی پرداخت می‌شود تا بعدها نیازی به فراموش داده نباشد، بسیار ارزشمند خواهد بود .

اصلاح و ویرایش مدل: حذف محتوای سمی، سوگیری‌ها و دانش منسوخ یا خطرناكاین نوع از فراموشی به‌منظور تصحیح اشتباهات و حذف موارد نامطلوب از مدل‌ها استفاده می‌شود. به‌عبارت‌دیگر، فراموشی می‌تواند به‌عنوان یك سازوكار كاهش ریسك در برابر خطرات هوش مصنوعی عمل كند .

برخلاف لغو دسترسی، در اصلاح مدل‌ها از انعطاف‌پذیری بیشتری برخورداریم، زیرا اصلاح یا ویرایش عمدتاً از مطلوبیت ناشی می‌شود و ضرورتی قانونی نیست: درست مانند دقت مدل در طبقه‌بندی تصویر یا سمی‌بودن متن تولید شده (البته این موارد هم می‌توانند آسیب‌های واقعی ایجاد كنند .

)در این حالت برای اطمینان از اینكه فراموشی ماشین خوب عمل می‌كند، به تضمین رسمی نیاز نداریم (گرچه ضمانت برای ما مطلوبیت دارد)؛ همان‌طور كه در حال حاضر كاربران زیادی هستند كه با رضایت كامل از مدل‌هایی استفاده می‌كنند كه «به اندازه‌ی كافی ایمن» تشخیص داده شده‌اند .

پویش پورمحمدهوش مصنوعی چطور كار می‌كند؟ طرز كار مدل‌های زبانی بزرگ به زبان سادهمطالعه '22كپی لینكانواع راه‌های فراموشی ماشیندر نگاه اول فراموشی ماشین به‌سادگی با بازآموزی مدل بدون داده‌های ناخواسته محقق می‌شود .

تصور كنید كتابخانه‌ی بزرگی دارید و می‌خواهید تمام كتاب‌های نویسنده‌ای خاص را از آن حذف كنید. ساده‌ترین راه این است كه تمام كتاب‌ها را بیرون بریزید و كتابخانه را از نو، بدون كتاب‌های آن نویسنده مرتب كنید .

این راهكار را می‌توانیم معادل «بازآموزی كامل» در یادگیری ماشین بدانیم.اما محققان به دنبال راه‌حل‌های بهتری هستند؛ زیرا از طرفی بازآموزی غالباً بسیار پرهزینه تمام می‌شود و از طرف دیگر پیداكردن موارد قابل‌حذف از داده‌های آموزشی كار زیادی می‌برد (به پیدا‌كردن تمام اشارات به هری پاتر را در یك تریلیون توكن فكر كنید) .

تكنیك‌های یادگیری‌زدایی از اساس به دنبال كاهش یا اجتناب از این هزینه‌ی بازآموزی هستند، درحالی‌كه نتایج یكسان یا مشابه تولید می‌كنند.بازآموزی كامل مدل‌ها بسیار پرهزینه است و كار زیادی می‌بردنگاهی كنیم به برخی از روش‌های رایج فراموش ماشین كه تا به امروز بیشتر موردتوجه محققان بوده‌اند:فراموشی دقیق (Exact unlearning): در این روش مدل یادگیری‌زدایی‌شده باید از لحاظ آماری كاملاً با مدل بازآموزی شده مشابه باشد .

فراموشی از طریق كاهش وضوح داده‌ها: در این روش، هدف این است كه مدل به‌گونه‌ای رفتار كند كه حذف یا نگه‌داشتن هر داده‌ی خاص در آن تفاوت چندانی ایجاد نكند.فراموشی تجربی با فضای نمونه‌ی شناخته شده: این روش شامل برداشتن گام‌های افزایشی در جهت تنظیم مدل برای فراموش‌كردن داده‌های خاص است .

فراموشی تجربی با فضای نمونه‌ی ناشناخته: در این حالت، داده‌هایی كه باید فراموش شوند دقیقاً مشخص نیستند و فقط به‌صورت مفهومی یا دانشی به مدل القا شده‌اند.فراموشی با درخواست مستقیم: در این روش با دستورات مستقیم به مدل‌ها تلاش می‌شود كه رفتار خاصی نشان دهند كه گویی داده‌ها فراموش شده‌اند .

روش‌های فراموشی غیردقیق گاهی باعنوان «فراموشی تقریبی» شناخته می‌شوند، به این معنی كه رفتار مدل یادگیری‌زدایی شده، تقریباً به مدل بازآموزی‌شده شباهت دارد.در ادامه نگاهی نزدیك‌تر به هر یك از این روش‌ها خواهیم داشت .

فراموشی دقیقهدف فراموشی دقیق این است كه مدل جدید (بعد از حذف داده‌ها) دقیقاً مثل مدلی عمل كند كه از اول بدون آن داده‌ها آموزش‌دیده است.این روش معمولاً با تقسیم مجموعه‌ی داده به بخش‌های غیرهم‌پوشان و آموزش جداگانه‌ی مدل با هر بخش از داده‌ها انجام می‌شود .

اگر نیاز به فراموشی داده‌های خاصی باشد، تنها بخشی از مدل كه با داده‌های مربوطه تعلیم‌دیده، دوباره تحت آموزش قرار می‌گیرد. در روش فراموشی دقیق عملكرد مدل جدید باید دقیقاً مثل مدلی باشد كه از ابتدا بدون داده‌های خاص آموزش‌دیده است .

در مثال قبل، فرض كنید كتابخانه را به چند بخش تقسیم كرده‌ایم و برای هر بخش یك كتابدار جداگانه تعیین كرده‌ایم. پس وقتی می‌خواهیم كتاب‌های یك نویسنده را حذف كنیم، فقط به كتابدارهایی كه به كتاب‌های موردنظرمان دسترسی دارند خبر می‌دهیم .

اگر مجموعه‌داده‌ها را به N بخش تقسیم كرده باشیم، هزینه‌ی محاسباتی روش فراموشی دقیق یعنی آموزش مجدد مدل بر اساس تغییر داده‌های یك بخش، معادل یك Nام آموزش كل مدل خواهد بود. در زمان استنتاج هم همه‌ی مدل‌ها با هم تركیب می‌شوند .

مهم‌ترین مزیت فراموشی دقیق این است كه ساختار ماژولار آن به ما اطمینان می‌دهد كه داده‌های حذف شده واقعاً تأثیری در نتایج ندارند و خود ساختار الگوریتم، درستی كار را ثابت می‌كند. به عبارتی چالش ارزیابی مدل‌ها پس از فراموشی تاحدودی حل می‌شود .

از طرف دیگر به دلیل شفافیت پروسه‌ها، بهتر می‌فهمیم كه هر داده چه تأثیری در عملكرد مدل دارد.فراموشی از طریق حریم خصوصی تفاضلیاگر حضور داشتن یا نداشتن یك داده در مدل، تغییر خاصی در رفتار آن ایجاد نكند، می‌توانیم استنباط كنیم كه نیازی به یادگیری‌زدایی مدل درخصوص داده‌ی مربوطه نخواهیم داشت .

این ایده، مبنای اصلی روشی است كه Differential Privacy (حریم خصوصی تفاضلی) یا به‌اختصار DP نام دارد: به‌عبارت‌دیگر در روش حریم خصوصی تفاضلی حساسیت مدل به تمام داده‌ها به‌قدری كم می‌شود كه حذف یك داده یا اضافه‌كردنش، تغییر بزرگی در نتایج ایجاد نمی‌كند .

در این تكنیك تفاوت بین مدل بازآموزی شده (بدون داده موردنظر) و مدل اولیه را به حداقل می‌رسد و توزیع نموداری نزدیكی را از هر دو آن‌ها دریافت می‌كند.فرض كنید كسی می‌خواهد داده‌ی شخصی او از مدل پاك شود. اگر روش حریم شخصی درست پیاده شده باشد، وقتی آن داده را از مدل حذف كنیم، مدل همچنان همان رفتار قبلی را نشان می‌دهد؛ انگار هیچ‌وقت داده‌ی مذكور را یاد نگرفته است .

به‌این‌ترتیب اصولاً نیازی به «فراموشی» خاصی نیست چون خود مدل طوری طراحی شده كه اثر آن داده خاص را به‌سختی بروز دهد.یكی از روش‌های معمول اجرای DP، اضافه‌كردن نویز به داده‌ها است: هنگامی‌كه می‌خواهیم مدل را تعلیم دهیم، به داده‌ها كمی نویز اضافه می‌كنیم تا اثر هر داده‌ی خاص را كم‌رنگ‌تر كنیم .

در مثالی ساده فرض كنید وقتی مدل دارد چیزی را از جمله‌ای یاد می‌گیرد، چند كلمه‌ی بی‌ربط و اضافه نیز وارد جمله شود. اگر بعدها بخواهیم آن جمله را حذف كنیم، ازآنجاكه نویز تأثیر كلی داده‌ها را كاهش داده، مدل تغییر چندانی حس نمی‌كند .

با افزودن نویز به داده‌های آموزشی، تأثیر هر داده در خروجی كاهش می‌یابداز نظر فنی در این روش ابتدا برای كاهش تأثیر هر داده، بزرگی گرادیان‌ها را محدود می‌كنیم. به‌این‌ترتیب مدل نمی‌تواند به‌صورت ناگهانی از یك داده‌ی خاص خیلی چیز یاد بگیرد و تأثیرپذیری مشخصی از داده‌ها خواهد داشت .

سپس كمی نویز به داده‌ها اضافه می‌كنیم تا اثر دقیق هر داده پنهان شود و حتی اگر داده‌ای حذف شود، اثرش در نتیجه‌ی نهایی مدل به چشم نیاید.معیار DP با دو عدد اپسیلون (ε) و دلتا (δ) شناخته می‌شود. این دو عدد به ما كمك می‌كنند بفهمیم حریم خصوصی مدل چقدر قوی است:اپسیلون میزان تغییرات مجاز را نشان می‌دهد .

هرچه این عدد كوچك‌تر باشد، مدل در برابر تغییرات داده‌ها حساسیت كمتری نشان می‌دهد و حریم خصوصی بیشتری دارد.دلتا نوعی تضمین احتمالاتی محسوب می‌شود كه احتمال نقض حریم خصوصی داده را بیان می‌كند؛ یعنی به ما می‌گوید چقدر امكان دارد DP نتواند كارش را درست انجام دهد .

بنابراین هرچه دلتا كمتر باشد، احتمال اینكه مدل به‌خاطر یك داده‌ی خاص رفتار متفاوتی داشته باشد هم كمتر می‌شود.درمجموع كوچك‌تر بودن ε و δ یعنی مدل حریم خصوصی قوی‌تری دارد و اثر داده‌های خاص را به حداقل می‌رساند .

در بخش‌های بعد توضیح می‌دهیم چرا افزایش نویز به كاهش كارایی مدل منتهی می‌شود، اما فعلاً این مسئله را در نظر بگیرید كه استفاده از نویز مثل‌ این است كه برای پیدانكردن شخصی خاص در میان جمعیت، چهره‌ی همه را با ماسك بپوشانیم .

شاید نهایتاً مدل ما شخص موردنظر را شناسایی نكند، ولی هم‌زمان در تشخیص سایر داده‌ها نیز دچار مشكل می‌شود.مرجان شیخیهوش مصنوعی چیست؟ هر آنچه باید درباره تكنولوژی ChatGPT و Dall-E بدانیممطالعه '38فراموشی تجربی با فضای نمونه‌ی شناخته شدهدر این روش، فراموشی ماشین با ایجاد تغییرات كوچك در مدل از طریق گام‌های «افزایشی» انجام می‌شود .

تكنیك‌های تجربی بیشتر بر پایه‌ی آزمون‌وخطا پیش می‌روند و محققان با تنظیم دقیق پارامترها تلاش می‌كنند كه مدل رفتار دلخواهی در برابر داده‌های نامطلوب نشان دهد.نكته‌ی اصلی این است كه فقط وقتی فضای نمونه‌ها را می‌شناسیم، می‌توانیم از این روش استفاده كنیم .

تكنیك‌های تجربی گام‌به‌گام و با تنظیم دقیق پارامترها پیش می‌روندبه بیان ساده چند قدم حساب شده برمی‌داریم تا رفتار مدل اصلی را به‌گونه‌ای تغییر دهیم كه انگار از اول با داده‌های جدید آموزش‌دیده است. مدل به‌طور محدود و با تنظیمات خاصی دوباره آموزش داده می‌شود تا رفتار آن در جهت فراموش‌كردن برخی داده‌ها تغییر كند .

برای مثال در رقابت NeurIPS سال ۲۰۲۳ هدف این بود كه با استفاده از یك الگوریتم یادگیری‌زدایی، مدلی تولید شود كه دیگر به داده‌های خاصی (مثلاً عكس‌های چهره) دسترسی نداشته باشد و رفتارش با مدل مرجع كه تنها با داده‌های باقی‌مانده آموزش‌دیده، شباهت داشته باشد .

شركت‌كنندگان ۳ ورودی اصلی دریافت می‌كردند:مجموعه‌ای از تصاویر كه مدل اصلی با آن‌ها تعلیم‌دیده بودمدل اولیه كه هنوز فراموشی در آن اعمال نشده بودتصاویری كه باید از مدل حذف می‌شدهمچنین مدل‌هایی مخفی وجود داشت كه صرفاً با داده‌های «نگه‌داشتنی» آموزش‌دیده بودند .

شركت‌كننده‌ها باید الگوریتمی می‌نوشتند كه ۵۱۲ مدل جدید و یادگیری‌زدایی‌شده مختلف با عملكردی مشابه مدل‌های مخفی تولید می‌كرد.درنهایت مشخص شد برندگان مسابقه از تركیب چند روش استفاده كرده‌اند:روی داده‌هایی كه باید فراموش می‌شدند، گرادیان صعودی اعمال كردند .

(انگار به مدل بگویند از این داده‌ها دور شو و آن‌ها را فراموش كن)روی داده‌هایی كه باید حفظ می‌شدند، گرادیان نزولی اعمال كردند. (انگار به مدل بگویند این داده‌ها را بهتر یاد بگیر و به‌خاطر بسپار)به داده‌های فراموش‌شدنی برچسب‌های تصادفی دادند تا مدل كمی گیج شود و نتواند آن‌ها را دقیق به یاد بیاورد .

به حافظه‌ی مدل نویز اضافه كردند تا آن را كمی فراموش‌كارتر كنند.بعضی از وزن‌ها را از نو مقداردهی كردند و برخی وزن‌ها را حذف كردند.لایه‌های اول و آخر مدل را مجدداً از نو راه‌اندازی كردند و با عكس‌های حفظ‌شدنی آموزش دادند .

دلیل محبوبیت روش‌های تجربی، این است كه ساده‌تر و سریع‌تر اجرا می‌شوند و درعین‌حال تأثیر خوبی روی مدل دارند. به‌علاوه نتایج كار هم به‌راحتی دیده می‌شود. برعكس در روش‌های نظری كه از محاسبات پیچیده استفاده می‌كنند، در عمل كُند و سخت اجرا می‌شوند و به منابع زیادی نیز نیاز دارند .

اما یكی از چالش‌های اصلی روش تجربی این است كه نمی‌دانیم در حالت ایدئال، یك مدل بعد از فراموش‌كردن چه رفتاری با داده‌های جدید از خود نشان می‌دهد؛ مثلاً آیا باید تصاویری را كه حذف شده‌اند، به‌صورت تصادفی و بدون اطمینان دسته‌بندی كند یا خیر .

این عدم قطعیت در رفتار مدل به دلیل وجود شرایط و سناریوهای مختلف می‌تواند به تفاوت‌هایی در خروجی مدل منجر شود و پیش‌بینی دقیق اثرات آن را دشوار كند. در نتیجه اثبات كارایی مدل جدید و شباهت آن به مدل اصلی زیر سؤال می‌رود، چرا كه مدل پس از حذف داده‌ها می‌تواند نتایج و خروجی‌های متنوعی ایجاد كند .

فراموشی تجربی با فضای نمونه‌ی ناشناختهزمانی كه داده‌هایی كه باید فراموش شوند به‌صورت دقیق مشخص نیستند و تنها به شكل مفاهیم یا دانشی كلی در مدل وجود دارند، از این روش تجربی استفاده می‌شود.برای مثال فرض كنید می‌خواهیم یك مدل مفهوم «بایدن رئیس‌جمهور آمریكا است» را فراموش كند .

اما مفهوم واقعی این جمله در قالب‌های مختلفی در داده‌ها موجود است، مثل مقاله‌ها، گفتگوهای عمومی، ویدیوها، پست‌های وبلاگ یا متن‌های خبری. بنابراین تنها با حذف چند نمونه‌ی خاص به هدف نمی‌رسیم.معمولاً اصطلاحاتی مانند «ویرایش مدل»، «ویرایش مفهوم»، «جراحی مدل» و «یادگیری‌زدایی دانش» به این تكنیك فراموشی ماشین اشاره دارند .

اما وقتی درخواست فراموش‌كردن تا این حد نامشخص است، باید روی موضوعاتی مثل دامنه‌ی ویرایش و چگونگی روابط اطلاعات تمركز كنیم.برخی اطلاعات در مجموعه‌داده‌های آموزشی به شكل‌های مختلفی و با پیامدهای متفاوتی ظاهر می‌شودگاهی اوقات چند مثال دریافت می‌كنیم كه با توجه‌ به آن‌ها می‌فهمیم چه چیزی از مدل باید یادگیری‌زدایی شود .

اما این اطلاعات در مجموعه‌داده‌های آموزشی به شكل‌های مختلفی و با پیامدهای متفاوتی ظاهر می‌شود. پس حتی اگر بتوانیم دقیقاً همان مثال‌ها را پاك كنیم، كافی نیست. فضای نمونه‌ی ناشناخته در فرم‌های زیر بهتر احساس می‌شود:حذف اطلاعات پراكنده درباره‌ی یك شخص یا رویداد، مانند فراموش‌كردن یك سیاستمدار یا سلبریتیحذف سبك هنری: یك هنرمند می‌خواهد سبك خاص خودش از مدل هوش مصنوعی پاك شود تا دیگر مدل نتواند نقاشی‌های مشابهی به سبك او تولید كند .

اما این كار دشوار است، چون نمی‌توان تمام آثار هنری موجود در اینترنت را كه با این سبك هنری خلق شده‌اند به مدل نشان داد تا همه را حذف كند.حذف مقالات یك منبع خبری: اگر نیویورك‌تایمز درخواست دهد مقالاتش را از مدل پاك كنند، این سوال مطرح می‌شود كه چگونه می‌توان تمام نقل‌قول‌ها، تفسیرها، نسخه‌های فرعی و اشاراتی را كه به مقالات شده، جمع‌آوری كرد .

همچنین چگونه باید به مدل نشان دهیم كه كدام موارد باید حذف شوند.در این مواقع ازآنجاكه نمی‌توانیم همه‌ی داده‌های مربوط به یك مفهوم خاص را دقیقاً مشخص كنیم، فرایند یادگیری‌زدایی به‌صورت «تجربی» انجام می‌شود .

یعنی از راهكارهایی استفاده می‌شود كه مدل به طور تقریبی رفتار خود را تغییر دهد، بدون اینكه تضمینی وجود داشته باشد كه تمام اطلاعات موردنظر پاك شده باشند.نكته‌ای كه شاید برایتان جالب باشد: وقتی به‌صورت تجربی اطلاعاتی را از مدل پاك می‌كنیم، خود این یادگیری‌زدایی هم می‌تواند یادگیری‌زدایی شود .

در عمل فراموشی تجربی با استفاده از تغییرات كوچك و مداوم در مدل انجام می‌شود:یافتن نمونه‌های مشابه: گر نتوانیم همه‌ی داده‌ها را پیدا كنیم، مدل را با نمونه‌های مشابه و غیریكسانی دوباره آموزش می‌دهیم تا به‌تدریج مفهوم موردنظر فراموش شود .

ایجاد جایگزین‌ها: برای مثال به مدل می‌گوییم به‌جای اینكه «هری پاتر» را به‌عنوان یك جادوگر در نظر بگیرد، متن‌های مشابهی بسازد كه در آن «هری پاتر» به كار دیگری مشغول باشد، مثلاً آشپزی.جهت‌دهی رفتار مدل: در این روش با تغییر و تنظیم وزن‌ داده‌ها و سایر پارامترهای مدل، به او آموزش می‌دهیم كه به شكلی متفاوت رفتار كند، یعنی از ارائه اطلاعاتی كه باید فراموش شود، اجتناب كند .

محدودكردن ارتباطات بین داده‌ها: به این معنا كه مدل طوری تنظیم می‌شود كه بین داده‌هایی كه می‌خواهیم فراموش شوند و سایر داده‌ها، ارتباط زیادی برقرار نشود.درخواست مستقیم از مدل برای فراموشیتحقیقات نشان می‌دهد كه مدل‌های زبانی بزرگ قدرتمند و دستورپذیر مانند GPT-4، به‌قدر كافی هوشمند هستند كه بتوانند فراموشی را «تظاهر كنند» .

به‌عبارتی می‌توان پیام‌هایی طراحی كرد كه رفتار مدل را درخصوص فراموشی اطلاعات موردنظر، به حد كافی ایمن كند.موضوع جالب درمورد این روش این است كه اصولاً از گرادیان یا جهت‌دهی توجه مدل استفاده نمی‌كند و درعین‌حال نتایج مطلوبی تولید می‌كند .

تا به امروز كارشناسان از ۳ راهكار خروجی نسبتاً خوبی دریافت كرده‌اند:۱) درخواست صریح از مدل برای تظاهركردن: می‌توانیم در پیام سیستمی از مدل بخواهیم كه وانمود كند هری پاتر را نمی‌شناسد. این روش برای اطلاعات عمومی و رایجی كه در داده‌های آموزشی به‌خوبی گنجانده شده، بهتر جواب می‌دهد .

زیرا مدل باید به‌خوبی از اطلاعات مربوطه مطلع باشد تا بتواند فراموشی آن‌ها را تظاهر كند.درخواست مستقیم از مدل برای تظاهر به فراموشی درخصوص اطلاعات عمومی بهتر جواب می‌دهداما اگر بخواهیم مدل چیزی مثل آدرس فرد ناشناسی را فراموش كند (كه شاید در داده‌های آموزشی وجود داشته) مسئله پیچیده‌تر می‌شود .

درواقع این كار به اثر «استرایسند» شباهت دارد كه اگر بیش‌ازحد روی فراموشی چیزی تمركز كنیم، ممكن است ناخواسته آن را فاش نماییم.۲) روش نمونه محور: در این حالت با ارائه‌ی مثال‌هایی خاص به مدل، از او می‌خواهیم اطلاعات نادرست را به‌عنوان حقیقت بپذیرد .

مثلاً اگر می‌خواهیم مدل این واقعیت را كه «پاریس پایتخت فرانسه است» فراموش كند، در ورودی مدل با چندین مثال این جمله را با اطلاعاتی اشتباه وارد می‌كنیم.این رویكرد زمانی كارآمدتر است كه داده‌های فراموشی، دقیق و محدود باشند .

اما در شرایطی كه با فرایندهای پیچیده‌تری مثل «حذف رفتارهای سمی و ناخواسته» سروكار داریم، احتمالاً پاسخ مطلوبی دریافت نمی‌كنیم، زیرا تعداد خروجی‌های احتمالی بسیار زیاد هستند.۳) سیستم چندمدلی: در این سیستم تنها یك رابط برای ورودی و خروجی مدل كلی فراهم می‌شود و مدل‌های مختلفی نیز برای شبیه‌سازی بخش‌های مختلف به‌كار می‌روند: مثلاً یك مدل به سؤالات كلی پاسخ می‌دهد، مدل دیگری نقش تكمیل جملات را به عهده می‌گیرد و نظیر آن .

همچنین مدل هماهنگ‌كننده، تعیین می‌كند كه كدام مدل در پاسخ‌دهی به سؤال كاربر مورداستفاده قرار بگیرد. نهایتاً یك مدل جمع‌بندی كننده خروجی نهایی را بر اساس رفتار فراموشی موردنظر تدوین می‌كند و حتی فیلترهایی را نیز روی آن اعمال می‌نماید .

انتقادی كه به تمامی این روش‌ها وارد می‌شود، این است كه مدرك یا تضمینی برای فراموشی به ما نمی‌دهند.در مقابل، برخی كارشناسان استدلال می‌كنند كه خود انسان‌ها هم واقعاً چیزی را فراموش نمی‌كنند، بلكه عموماً تصمیم می‌گیرند از دانسته‌های قبلی خود در موقعیت‌های خاص استفاده نكنند .

پس شاید به‌جای اینكه از هوش مصنوعی انتظار داشته باشیم چیزی را كاملاً فراموش كند، باید به آن یاد بدهیم چه زمانی، چگونه دانش خود را به كار بگیرد.مرجان شیخیهوش مصنوعی LaMDA گوگل؛ خودآگاهی یا تظاهر به خودآگاهی؟ [همراه با ویدئو]مطالعه '20كپی لینكچالش‌ها و محدودیت‌های فراموشی ماشیننیاز به انواع منابع گران‌بهایادگیری‌زدایی ماشین با حذف داده‌های خاص به‌ویژه در مدل‌های بزرگ و پیچیده، بدون پردازش‌های سنگین و چندباره امكان‌پذیر نیست و هزینه‌های محاسباتی و زمانی بالایی را به همراه دارد .

در مدل‌های هوش مصنوعی GPT-4o و Bert كه با میلیاردها پارامتر تعلیم دیده‌اند، فرایند حذف برخی داده‌ها به اندازه‌ی آموزش مجدد كل مدل، وقت و تلاش خواهد برد.به‌علاوه نیاز به منابع پردازشی بسیار قوی مانند مجموعه‌ی جی‌پی‌یوها و پردازنده‌های تنسور، به‌احتمال زیاد شركت‌های كوچك‌تر را از پیاده‌سازی تكنیك‌های فراموشی منصرف می‌كند .

قطعی نبودن حذف كامل داده‌هادر مدل‌های یادگیری عمیق، داده‌های آموزشی به‌صورت پیچیده‌ای در وزن‌ها و پارامترهای مدل گنجانده می‌شوند. حتی اگر بخشی از داده‌ها حذف شوند، ممكن است اثری از آن‌ها به شكل غیرمستقیم همچنان در مدل باقی بماند .

به‌عنوان‌ مثال، یك مدل زبانی كه با داده‌های جانب‌دارانه آموزش‌دیده، حتی پس از حذف این داده‌ها ممكن است برخی الگوهای سوگیرانه را همچنان حفظ كند.از طرف دیگر روش‌های تقریبی تضمینی برای حذف كامل داده‌ها ارائه نمی‌دهند .

در شرایطی كه رگولاتورها فراموشی را امری «حیاتی» بدانند، این مشكل محدودیتی جدی محسوب می‌شود و اعتبار مدل را زیر سؤال می‌برد.تأثیر منفی بر عملكرد مدلمهم‌ترین چالشی كه در حوزه‌ی یادگیری‌زدایی از مدل‌ها به چشم می‌خورد، این است كه غالباً حذف داده‌ها به كاهش دقت و كارایی مدل منجر می‌شود .

تحقیقات نشان می‌دهد كه در برخی موارد، حذف داده‌های خاص می‌تواند مدل را حتی در انجام وظایف ساده خود نیز ناتوان كند. به‌عنوان‌ مثال در یك مدل شناسایی تصویر، حذف تصاویر خاصی از افراد می‌تواند باعث كاهش دقت كلی مدل در شناسایی آن دسته از تصاویر شود .

هرچه تنوع و گستردگی اطلاعات ورودی بیشتر باشد، احتمال اینكه بعد از حذف برخی داده‌ها تعادل مدل از بین برود هم بیشتر می‌شود.اغلب روش‌های فعلی فراموشی ماشین كیفیت عملكرد مدل‌ها را پایین می‌آورندهمچنین در برخی از تكنیك‌های فراموشی ماشین، اضافه‌كردن نویز به داده‌ها یا گرادیان‌ها باعث می‌شود حساسیت مدل به داده‌های خاص كاهش یابد، اما روی دقت كلی مدل نیز اثر منفی خواهد داشت .

محققان به‌دنبال یافتن راه‌حلی برای برقراری تعادل بین «حذف یا تغییر داده‌ها» و «صحت و دقت پاسخگویی» مدل‌ها هستند، زیرا در حوزه‌هایی مانند تشخیص پزشكی یا تحلیل داده‌های حیاتی، خروجی‌هایی كه تحت نویز به دست می‌آیند پیامدهای غیرقابل‌بازگشتی به دنبال دارند .

نبود ابزارهای ارزیابی دقیق میزان فراموشیارزیابی میزان موفقیت روش‌های آن‌لرنینگ و بررسی اینكه آیا مدل واقعاً داده‌های خاصی را فراموش كرده یا خیر، به دلیل پیچیدگی‌های ساختاری و وابستگی‌های داخلی مدل‌ها، بسیار دشوار است .

ابزارهای ارزیابی فعلی عمدتاً میزان دقت و عملكرد كلی مدل پس از حذف داده‌ها را می‌سنجند، ولی توانایی تشخیص ردپاهای كوچك و غیرمستقیم داده‌ها در مدل را ندارند. به همین‌دلیل محققان توسعه‌ی معیارهای جدیدی كه به‌طور دقیق وابستگی مدل‌های تغییریافته به داده‌های حذف شده را ارزیابی كند، ضروری می‌دانند .

كپی لینكهنر فراموشی: مطالعات دنیای واقعیمطالعات جدید محققان دانشگاه واشنگتن، پرینستون، شیكاگو، USC و شركت گوگل نشان می‌دهد محبوب‌ترین تكنیك‌های فراموشی امروزی، هریك به‌نوعی قدرت مدل‌ها را كاهش می‌دهند؛ تا جایی كه گاهی بعد از اعمال تغییرات، مدل‌ها دیگر قابل‌استفاده نیستند .

ویجیا شی، یكی از محققان حوزه‌ی آن‌لرنینگ و دانشجوی دكترای علوم كامپیوتر دانشگاه واشنگتن، می‌گوید:ارزیابی ما نشان می‌دهد كه روش‌های یادگیری‌زدایی فعلی هنوز برای استفاده‌ی معنادار یا پیاده‌سازی در سناریوهای دنیای واقعی آماده نیستند .

در حال حاضر هیچ روش كارآمدی وجود ندارد كه به یك مدل اجازه دهد داده‌های خاصی را فراموش كند، بدون اینكه كارایی آن به‌طرز چشمگیری كاهش یابد.فراموشی ماشین به‌سادگی با فشار دكمه‌ی «حذف» انجام نمی‌شود.شی و همكارانش برای بررسی اثربخشی این الگوریتم‌های فراموشی معیار سنجشی را طراحی و هشت الگوریتم متن‌باز مختلف را برای آزمایش انتخاب كردند .

هدف این معیار كه MUSE (ارزیابی شش‌گانه‌ی یادگیری‌زدایی ماشین) نام دارد، این بود كه توانایی مدل را با دو معیار اصلی بسنجد: وجودنداشتن داده‌های حذف شده در پاسخ‌ها و همچنین فراموشی دانش كلی در مورد یك موضوع، یا هرگونه شواهدی كه نشان دهد مدل در اصل با این داده‌ها تعلیم‌دیده است .

دریافت امتیاز خوب در این تحقیقات، مستلزم این بود كه مدل دو چیز را فراموش كند: مجموعه كتاب‌های هری پاتر و مقالات خبری.برای مثال به این جمله از كتاب هری‌پاتر و تالار اسرار توجه كنید: «خاله پتونیا درحالی‌كه به پسرش نگاه می‌كرد، گفت در ماهیتابه غذای بیشتری وجود دارد» .

محققان برای درك موفقیت الگوریتم‌ها، مدل جدید را به چندین شیوه محك زند:اگر مدل بتواند جمله‌ی ناقص «خاله... گفت توی ماهیتابه غذای بیشتری است...» را كامل كند، یعنی هنوز داده‌های موردنظر را به‌خاطر می‌آورد .

اگر مدل به سؤالاتی كه درباره‌ی این صحنه می‌شود، مثل «خاله پتونیا به پسرش چه گفت؟» پاسخ دهد، مشخص می‌شود كه با داده‌های كتاب تعلیم‌دیده است.آیا مدل اطلاعات عمومی حول داده‌های موردنظر را به‌خاطر می‌آورد و مثلاً می‌داند جی .

كی رولینگ چه نسبتی با كتاب‌های هری پاتر دارد؟ پاسخ درست به سؤال آخر، كارایی كلی مدل را نشان می‌دهد. هرچه كارایی پایین‌تر باشد، مدل دانش كلی بیشتری را از دست می‌دهد و كیفیت پاسخگویی آن به سایر سؤالات و درخواست‌ها هم پایین‌تر می‌آید .

نتایج تحقیقات نشان می‌داد الگوریتم‌های آن‌لرنینگ واقعاً باعث می‌شوند مدل‌ها اطلاعات خاصی را فراموش كنند، اما درعین‌حال به قابلیت‌های پاسخگویی به سؤالات عمومی نیز آسیب می‌زنند. شی توضیح می‌دهد:طراحی روش‌های فراموشی ماشین می‌تواند چالش‌برانگیز باشد، زیرا اطلاعات و دانش پیرامون موضوعات، به‌طرز پیچیده‌ای درون مدل درهم‌تنیده شده‌اند .

مثلاً یك مدل احتمالاً هم با محتوای دارای حق نشر «كتاب‌های رسمی هری پاتر» و هم با محتوای آزاد «ویكی هری پاتر» تعلیم‌دیده و وقتی روش‌های آن‌لرنینگ موجود تلاش می‌كنند داده‌های كتاب‌های دارای كپی‌رایت هری پاتر را حذف كنند، روی اطلاعات مدل درباره ویكی هری پاتر نیز تأثیر قابل‌توجهی می‌گذارند .

با گسترش مدل‌های یادگیری عمیق و استفاده‌ی روزافزون از داده‌های حساس و دارای كپی‌رایت، نیاز به روش‌هایی برای حذف یا تعدیل این اطلاعات بیش‌ازپیش احساس می‌شود. اگرچه راهكارهای فعلی آن‌لرنینگ هنوز به بلوغ كامل نرسیده‌اند و با چالش‌های فنی و قانونی زیادی روبرو هستند، اما تلاش‌های مداومی برای بهبود و توسعه‌ی این حوزه در جریان است .

منبع : https://www.zoomit.ir/featured-articles/429476-what-is-machine-unlearning/

مجله فن آوری

 
بهترین تخفیف های بلك فرایدی [۴ آذر ۱۴۰۳]
1403/09/04
پاسخ اعضای تیم ویدیو زومیت به پرسش‌های شما [تماشا كنید]
1403/09/04
وقتی هوش مصنوعی فراموش می‌كند؛ همه‌چیز درباره فراموشی ماشین
1403/09/04
تسلا: ریویان با جذب كاركنان ما، اسرار تجاری را ربوده است؛ توافق مشروط دو شركت برای حل پرونده
1403/09/04
گزارش شاخص‌ جهانی نوآوری در سال ۲۰۲۴؛ ایران روی پله‌ی ۵۲ خروجی‌های خلاقانه
1403/09/04
ایردراپ در مقابل ریترودراپ‌ | هر كدام چه هستند و چه تفاوتی دارند؟
1403/09/04
هواوی فعلاً برنامه‌ای برای عرضه گوشی كامپكت ندارد
1403/09/04
شركت Valve در حال توسعه كنسول دستی استیم‌دك ۲ است
1403/09/04
مایكروسافت انتشار آپدیت ۲۰۲۴ ویندوز ۱۱ را برای كاربران بازی‌های یوبیسافت متوقف كرد
1403/09/04
گلكسی زد فلیپ ۷ و فلیپ FE احتمالاً از این تراشه‌ها استفاده خواهند كرد
1403/09/04
وزیر ارتباطات: ضرر فیلترینگ به ارتباطات كشور بیش از ۵۰ هزار میلیارد تومان است
1403/09/04
مدیرعامل تیك‌تاك در آستانه آغاز دولت ترامپ، با ایلان ماسك گفت‌وگو كرده است
1403/09/04
تلاش اپل برای ساده‌سازی تعمیر لپ‌تاپ؛ فروش اسپیكرهای مك‌بوك به‌زودی آغاز می‌شود
1403/09/03
نظریه نسبیت عام اینشتین در بزرگ‌ترین مقیاس ممكن ثابت شد
1403/09/03
كشف دانشمندان چینی: فعالیت آتشفشانی در سمت پنهان ماه ۱٫۴ میلیارد سال دوام داشت
1403/09/03
غول مرحله‌ آخر AMD رؤیت شد؛ تردریپر ۹۰۰۰ با ۹۶ هسته Zen 5 و توان مصرفی ۳۵۰ وات
1403/09/03
بعدیانتها


با توجه به نیاز همیشگی شهروندان به اطلاعات و تلفن های تجاری و دولتی اقدام به تولید و راه اندازی سامانه 118 نوین بعنوان بزرگترین پایگاه اطلاعات مشاغل در کشور نمودیم .هدف ما در دسترس قرار دادن اطلاعات و مشخصات مریوط به مشاغل خصوصی و دولتی به عموم شهروندان و کاربران می باشد.


مشهد میدان راهنمایی روبروی دستغیب 3 پلاک 18
تلفن : 38472159 - 051 (10 خط)
ایمیل : info@118ovin.com