個人化頻率直方圖估計的研究
我們受到用戶設備上預測下一個單詞問題的啟發,提出並研究在聯邦環境下的個人化頻率直方圖估計問題。在這個問題中,每位用戶在某個領域中觀察到來自特定於該用戶的分佈的一些樣本。我們的目標是為所有用戶計算個人化的用戶分佈估計,並用KL散度來衡量誤差。
挑戰與解決方案
我們專注於解決兩個主要挑戰:統計異質性和用戶隱私保護。我們的方法依賴於發現和利用在現實數據中經常存在的相似用戶子群,同時最小化用戶隱私洩漏的風險。
算法介紹
首先,我們提出了一個非私有的基於聚類的算法,並給出一個可證明的聯合差分私有版本,這個版本有一個依賴於私有數據的初始化方案。接下來,我們提出了一個基於狄利克雷分佈混合的簡單數據模型,這個模型正式支持我們的非私有算法並展示其組件的一些特性。
實驗評估
最後,我們對我們的私有和非私有算法在Reddit、StackOverflow和Amazon Reviews數據集上進行了廣泛的實證評估,考察不同的統計和大小異質性。結果顯示,我們的算法在標準和基於聚類的基準上有顯著的改進,特別是它們表明可以改善單一全局模型的直接個人化。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!