یادگیری فدرال: آموزش هوش مصنوعی بدون اشتراکگذاری دادههای شما
در عصر دادههای بزرگ، رویکرد سنتی یادگیری ماشین (ML) همیشه متمرکز بوده است: جمعآوری تمام دادهها در یک مکان و آموزش مدل در آنجا. اما با افزایش نگرانیهای مربوط به حریم خصوصی، پارادایم جدیدی ظهور کرده است.
یادگیری فدرال (Federated Learning) چیست؟
یادگیری فدرال یک تکنیک غیرمتمرکز یادگیری ماشین است که در آن یک مدل در چندین دستگاه لبه (مانند گوشیهای هوشمند یا حسگرهای اینترنت اشیا) بدون تبادل آن دادهها آموزش میبیند.
چه کسی آن را معرفی کرد؟
مفهوم و اصطلاح “یادگیری فدرال” برای اولین بار توسط محققان گوگل در سال ۲۰۱۶ معرفی شد. در مقاله برجسته آنها، “Communication-Efficient Learning of Deep Networks from Decentralized Data”، برندان مکماهان و تیمش این روش را به عنوان راه حلی برای آموزش مدلهای با کیفیت بالا و در عین حال نگه داشتن دادهها در دستگاههای کاربران پیشنهاد کردند.
سه نوع اصلی یادگیری فدرال
همه یادگیریهای فدرال یکسان نیستند. بسته به نحوه توزیع دادهها، آن را به سه نوع تقسیم میکنیم:
- یادگیری فدرال افقی (Horizontal FL): زمانی استفاده میشود که مجموعهدادهها فضای ویژگی یکسانی دارند اما نمونههای متفاوتی دارند. مثال: دو بانک منطقهای با مشتریان متفاوت اما انواع دادههای حساب یکسان.
- یادگیری فدرال عمودی (Vertical FL): زمانی استفاده میشود که مجموعهدادهها شناسههای نمونه یکسانی دارند اما ویژگیهای متفاوتی دارند. مثال: یک بانک و یک سایت تجارت الکترونیک که در یک مدل امتیازدهی اعتبار برای همان مجموعه از کاربران همکاری میکنند.
- یادگیری فدرال انتقال (Transfer FL): زمانی استفاده میشود که مجموعهدادهها هم در نمونهها و هم در ویژگیها تفاوت دارند. از یک مدل پیشآموزش دیده برای “انتقال” دانش به یک دامنه جدید استفاده میکند.
یادگیری ماشین متمرکز در مقابل یادگیری فدرال: یک مقایسه
| ویژگی | یادگیری ماشین متمرکز | یادگیری فدرال |
|---|---|---|
| محل دادهها | ابر/سرور متمرکز | دستگاههای لبه توزیع شده |
| حریم خصوصی | دادهها باید به اشتراک گذاشته شوند | دادهها محلی و خصوصی میمانند |
| پهنای باند | بالا (آپلود دادههای خام) | پایین (آپلود وزنهای مدل) |
| مصرف انرژی | سمت سرور | سمت کلاینت (هنگام آموزش) |
| سختافزار | خوشههای GPU | گوشیهای هوشمند، اینترنت اشیا، لپتاپها |
چه دادههایی با سرور مرکزی به اشتراک گذاشته میشود؟
این حیاتیترین بخش یادگیری فدرال است: هیچ داده خامی هرگز با سرور مرکزی به اشتراک گذاشته نمیشود.
وقتی دستگاه شما در آموزش شرکت میکند، عکسها، پیامها یا گزارشهای سلامتی شما را ارسال نمیکند. در عوض، فقط موارد زیر را به اشتراک میگذارد:
- بهروزرسانیهای مدل (وزنها و گرادیانها): اینها پارامترهای ریاضی هستند که “بهبودهایی” را که مدل هنگام مشاهده دادههای شما پیدا کرده است، توصیف میکنند.
- رمزنگاری: این بهروزرسانیها اغلب با تکنیکهایی مانند تجمع امن (Secure Aggregation) بیشتر محافظت میشوند و اطمینان حاصل میکنند که سرور فقط میتواند بهروزرسانی ترکیبی میلیونها کاربر را ببیند، نه مشارکت هیچ فردی را.
به طور خلاصه: سرور دانش کسب شده را میبیند، اما هرگز خود دادهها را نمیبیند.
امنیت پیشرفته: تجمع امن و حریم خصوصی دیفرانسیل
برای محافظت بیشتر از حریم خصوصی کاربر، اغلب از دو لایه اضافی استفاده میشود:
- تجمع امن (Secure Aggregation): یک پروتکل رمزنگاری که به سرور اجازه میدهد مجموع تمام بهروزرسانیها را بدون دیدن هیچ بهروزرسانی فردی محاسبه کند.
- حریم خصوصی دیفرانسیل (Differential Privacy): افزودن مقدار کمی “نویز” ریاضی به بهروزرسانیها به طوری که مهندسی معکوس دادههای هر کاربر خاص از مدل نهایی غیرممکن باشد.
جریان کار: چگونه کار میکند
جادو در یک فرآیند چرخهای اتفاق میافتد:
- مقداردهی اولیه: سرور مرکزی یک مدل جهانی ایجاد میکند.
- توزیع: مدل به گروهی از دستگاههای شرکتکننده (کلاینتها) ارسال میشود.
- آموزش محلی: هر دستگاه مدل را روی دادههای محلی خود آموزش میدهد. دادهها در دستگاه باقی میمانند.
- تجمع: دستگاهها فقط بهروزرسانیهای ریاضی (وزنها) را به سرور بازمیگردانند.
- بهروزرسانی جهانی: سرور این بهروزرسانیها را برای بهبود مدل جهانی برای همه ادغام میکند.
مثالهای دنیای واقعی
- Google Gboard: پیشبینی کلمه بعدی شما بدون خواندن پیامهای خصوصی شما.
- مراقبتهای بهداشتی: آموزش مدلهای تشخیصی در چندین بیمارستان بدون اشتراکگذاری سوابق بیماران.
- خانههای هوشمند: بهبود هوش دستگاه در حالی که روال روزانه شما را خصوصی نگه میدارد.
نتیجهگیری
یادگیری فدرال آیندهای را نشان میدهد که در آن هوش مصنوعی قدرتمند است اما به حریم خصوصی نیز احترام میگذارد. با تغییر از “داده به مدل” به “مدل به داده”، ما میتوانیم سیستمهای هوشمندتری بسازیم بدون اینکه اطلاعات شخصی خود را به خطر بیندازیم.
برای بینشهای بیشتر در مورد آینده فناوری غیرمتمرکز، با غزنیکس همراه باشید!