Federated Learning: Verilerinizi Paylaşmadan Yapay Zekayı Eğitmek
Büyük Veri çağında, Makine Öğrenmesinin (ML) geleneksel yaklaşımı her zaman merkezi olmuştur: tüm verileri tek bir yerde toplamak ve modeli orada eğitmek. Ancak gizlilik endişeleri arttıkça yeni bir paradigma ortaya çıktı.
Federated Learning (Federatif Öğrenme) Nedir?
Federated Learning (FL), verileri asla değiş tokuş etmeden, bir modelin yerel veri örneklerine sahip birden fazla uç cihaz (akıllı telefonlar veya IoT sensörleri gibi) arasında eğitildiği merkezi olmayan bir makine öğrenmesi tekniğidir.
Kim Tanıttı?
“Federated Learning” kavramı ve terimi ilk olarak 2016 yılında Google araştırmacıları tarafından tanıtıldı. Brendan McMahan ve ekibi, “Communication-Efficient Learning of Deep Networks from Decentralized Data” adlı dönüm noktası niteliğindeki makalelerinde, verileri kullanıcıların cihazlarında tutarken yüksek kaliteli modeller eğitmenin bir yolu olarak bu yöntemi önerdiler.
Üç Ana Federated Learning Türü
Tüm Federated Learning süreçleri aynı değildir. Verilerin nasıl dağıtıldığına bağlı olarak bunu üç türe ayırıyoruz:
- Yatay (Horizontal) Federated Learning: Veri kümeleri aynı özellik alanını ancak farklı örnekleri paylaştığında kullanılır. Örnek: Farklı müşterileri olan ancak aynı tür hesap verilerine sahip iki bölgesel banka.
- Dikey (Vertical) Federated Learning: Veri kümeleri aynı örnek kimliklerini paylaştığında ancak farklı özelliklere sahip olduğunda kullanılır. Örnek: Aynı kullanıcı grubu için bir kredi puanı modeli üzerinde iş birliği yapan bir banka ve bir e-ticaret sitesi.
- Federatif Transfer Öğrenmesi: Veri kümeleri hem örnekler hem de özellikler bakımından farklılık gösterdiğinde kullanılır. Bilgiyi yeni bir alana “transfer etmek” için önceden eğitilmiş bir model kullanır.
Merkezi ML vs. Federated Learning: Bir Karşılaştırma
| Özellik | Merkezi ML | Federated Learning |
|---|---|---|
| Veri Konumu | Merkezi Bulut/Sunucu | Dağıtık Uç Cihazlar |
| Gizlilik | Veriler paylaşılmalı/açıklanmalı | Veriler yerel ve gizli kalır |
| Bant Genişliği | Yüksek (Ham verileri yükler) | Düşük (Model ağırlıklarını yükler) |
| Güç Tüketimi | Sunucu tarafı | İstemci tarafı (eğitim sırasında) |
| Donanım | GPU Kümeleri | Akıllı Telefonlar, IoT, Laptoplar |
Merkezi Sunucu ile Hangi Veriler Paylaşılır?
Bu, Federated Learning’in en kritik kısmıdır: merkezi sunucu ile asla ham veri paylaşılmaz.
Cihazınız eğitime katıldığında fotoğraflarınızı, mesajlarınızı veya sağlık kayıtlarınızı göndermez. Bunun yerine yalnızca şunları paylaşır:
- Model Güncellemeleri (Ağırlıklar ve Gradyanlar): Bunlar, modelin verilerinize bakarken bulduğu “iyileştirmeleri” tanımlayan matematiksel parametrelerdir.
- Şifreleme: Bu güncellemeler genellikle Güvenli Toplama (Secure Aggregation) gibi tekniklerle daha da korunur; sunucunun herhangi bir bireyin katkısını değil, yalnızca milyonlarca kullanıcıdan gelen birleşik güncellemeyi görmesini sağlar.
Kısacası: sunucu elde edilen bilgiyi görür, ancak verinin kendisini asla görmez.
Gelişmiş Güvenlik: Güvenli Toplama ve Diferansiyel Gizlilik
Kullanıcı gizliliğini daha fazla korumak için genellikle iki ek katman kullanılır:
- Güvenli Toplama (Secure Aggregation): Sunucunun herhangi bir bireysel güncellemeyi görmeden tüm güncellemelerin toplamını hesaplamasına olanak tanıyan kriptografik bir protokoldür.
- Diferansiyel Gizlilik (Differential Privacy): Güncellemelere az miktarda matematiksel “gürültü” ekleyerek, nihai modelden herhangi bir belirli kullanıcının verilerini tersine mühendislik ile elde etmeyi imkansız hale getirir.
İş Akışı: Nasıl Çalışır?
Süreç döngüsel bir şekilde ilerler:
- Başlatma: Merkezi sunucu küresel bir model oluşturur.
- Dağıtım: Model, katılımcı cihazlardan (istemciler) oluşan bir gruba gönderilir.
- Yerel Eğitim: Her cihaz modeli kendi yerel verileri üzerinde eğitir. Veriler cihazda kalır.
- Toplama: Cihazlar yalnızca matematiksel güncellemeleri (ağırlıkları) sunucuya geri gönderir.
- Küresel Güncelleme: Sunucu, küresel modeli herkes için iyileştirmek üzere bu güncellemeleri birleştirir.
Gerçek Dünya Örnekleri
- Google Gboard: Özel metinlerinizi okumadan bir sonraki kelimenizi tahmin eder.
- Sağlık Hizmetleri: Hasta kayıtlarını paylaşmadan birden fazla hastane arasında teşhis modellerini eğitir.
- Akıllı Evler: Günlük rutininizi gizli tutarken cihaz zekasını geliştirir.
Sonuç
Federated Learning, yapay zekanın hem güçlü hem de gizliliğe saygılı olduğu bir geleceği temsil ediyor. “Veriden modele” anlayışından “modelden veriye” anlayışına geçerek, kişisel bilgilerimizden ödün vermeden daha akıllı sistemler inşa edebiliriz.
Merkezi olmayan teknolojinin geleceği hakkında daha fazla bilgi için Ghaznix’i takip etmeye devam edin!