#大數據 #隱私 #個人資料保護 #聯合學習 #Federated learning

風靡全世界的大數據分析,是不是已經偷偷侵害我們的個人隱私?我們是不是在不知不覺中把所有的數據都給了科技公司?政府?

為什麼會出現聯合學習?

過去機器學習分析大數據,是直接將原始的數據丟入資料庫中。例如,自動選字的機器學習,是將每個人在自己電腦、手機等載體上打字的內容、過程(如何選字等等),全數上傳到資料庫中。由機器進行分析運算,哪些組合是常見、打哪些字通常會配對哪些字等等。

看到這邊,大家應該都略略浮出兩種疑慮,

第一、如果一種語言有至少2000萬人使用,那可能就有超過2000萬具載體(手機、電腦、平板等等)要上傳資料到資料庫中,這樣全數上傳的資訊是否有足夠大的儲存空間、機器真的可以全數跑完這些資料嗎?

第二、把每個人打字的內容、選字的過程上傳到資料庫,也太可怕了吧,是不是有隱私侵害的問題啊?

針對第二個問題,歐盟通過GDPR的法案,指出與個人相關的資訊、數據等等都是個人資料,使用都需要有非常非常明確的授權跟同意。並且,歐盟在該法案中規定了在歐盟境內的企業或是將歐盟領域內的消費者的資訊傳遞到歐盟境外都需要提供相當於歐盟法規之保護或個別當事人之同意,並且也針對外國個資保護是否達到歐盟境內的標準發給認證。

因此可預見相當近的未來,許多國家不但會取得歐盟的認證,自己國家也會要求其他國家需達到歐盟認證或是自己國內的認證。

什麼是聯合學習?

聯合學習為了要解決上述的問題,不將所有的原始數據上傳至同一資料庫。而強調可以在個別的載體中先進行學習以及運算,最後才傳送出運算的結果。而該運算的結果是經去識別化、加密。因此同時解決了同一資料庫傳輸成本過大的問題以及個資不安全之問題。

例如
1.常見的例子有剛剛所提到的手機打字模型。
2.醫療相關的AI演算法,美國Intel與29家跨國醫療機構透過聯合學習,來開發腦瘤偵測AI演算法。
3.Fintech,運算使用端的數據,結合至放款、資歷審查以及各樣金融商品推薦之用。