蘋果公司的研究人員正在推進機器學習(ML)領域的基礎研究,這不僅增進了人們對這項技術的理解,還重新定義了它的可能性。這些研究可能會促進蘋果產品和服務的進步,並且研究的好處不僅限於蘋果生態系統,因為這些研究會通過發表、開源資源和參加行業及研究社群活動與更廣泛的研究社群分享。
下週,第38屆年度神經信息處理系統會議(NeurIPS)將在加拿大溫哥華舉行。NeurIPS是最大的年度機器學習和人工智慧研究會議,蘋果公司再次參加這個對社群非常重要的活動,並以贊助的方式支持它。
在主要會議和相關的工作坊中,蘋果的研究人員將展示許多關於機器學習的論文。以下是一些重點,包括推進隱私保護的機器學習、提升多模態模型的能力、改善大型語言模型(LLM)的預訓練、探索LLM的推理能力,以及理解自我監督學習。
NeurIPS的參加者將能在我們的展位(西大廳A的323號)體驗蘋果的機器學習研究示範,展覽期間,蘋果也贊助並參加了一些支持機器學習社群中弱勢群體的活動。關於蘋果在NeurIPS 2024的參與和貢獻的全面概述可以在這裡找到,以下是一些亮點。
推進隱私保護的機器學習
在蘋果,我們相信隱私是一項基本人權,推進隱私保護的機器學習技術是我們持續研究的重要領域。今年,蘋果的研究人員將在NeurIPS上展示兩篇與聯邦學習(FL)相關的論文。
從事FL研究的學者通常會在模擬中進行實驗,以快速迭代新想法。蘋果的研究人員將展示“pfl-research:加速私有聯邦學習研究的模擬框架”,這是一個快速、模組化且易於使用的Python框架,用於模擬FL,將幫助研究社群在這個主題上取得進一步進展。
蘋果的研究人員還將展示“在聯邦環境中的私有和個性化頻率估計”,這描述了一種使用私有聯邦學習來私下計算個性化頻率直方圖的新方法。個性化的詞頻(或標記)對於用戶設備上的鍵盤輸入的下一個詞預測非常有用。這很具挑戰性,因為大多數用戶的使用數據很少,且用戶的詞彙、主題和風格各異,導致數據分佈不同。這篇論文提出了一種新技術,發現並利用相似的用戶子群體,並顯示該方法的表現超過現有的基於聚類的算法。
提升多模態模型的能力
多模態和多任務模型變得越來越強大,但它們的有效性可能受到訓練數據限制的影響。在NeurIPS上,蘋果的機器學習研究人員將展示新方法,以超越這些限制並提升這些模型的性能。
大型預訓練的視覺-語言模型如CLIP已被證明能很好地泛化,但在一些任務上仍然有困難,例如細粒度分類(例如識別汽車型號),因為這些視覺概念在預訓練數據中表現不足。在NeurIPS上,蘋果的機器學習研究人員將展示“聚合和適應自然語言提示以促進CLIP的下游泛化”,這顯示了一種新的提示學習方法,用於在標註數據有限的情況下微調CLIP。通過聚合和適應的提示嵌入(AAPE),從自然語言提示(由人類或LLM生成)中提取文本知識,以豐富模型訓練數據中表現不足的概念。這種方法提高了CLIP的下游泛化能力,在各種視覺-語言任務中取得了良好的表現,包括圖像到文本檢索、少量樣本分類、圖像標題生成和視覺問答(VQA)。
雖然像4M這樣的多模態和多任務基礎模型顯示出良好的結果,但它們接受多樣化輸入和執行多樣化任務的能力受到訓練時的模態和任務的限制。在NeurIPS上,蘋果的機器學習研究人員和瑞士洛桑聯邦理工學院(EPFL)的合作夥伴將展示“4M-21:一種適用於多任務和模態的任意對任意視覺模型”,這顯示了如何通過在數十種高度多樣化的模態上進行訓練,並在大規模多模態數據集和文本語料庫上進行共同訓練,顯著擴展4M的能力(見圖1)。最終模型的參數擴展到30億,展示了強大的即時視覺性能、任意條件和可引導生成、跨模態檢索和多感官融合能力。
改善大型語言模型的預訓練
大型語言模型(LLMs)被用於各種生產應用,包括一些蘋果服務,對這些模型的基本改進可能對開發者及其用戶產生重大影響。在NeurIPS上,蘋果的機器學習研究人員將展示一種更有效的LLM預訓練新技術。
LLMs通常是在固定長度的標記序列數據集上進行訓練,因為它們的訓練基礎設施通常僅支持有限的序列長度。為了創建這些數據集,各種長度的文檔被合併,然後分割成指定長度的塊。由於這種方法隨機組合文檔,模型可能會使用與下一個標記無關的文檔的上下文,而不是使用相關文檔的上下文。這不僅是一個不良的學習信號,還會消耗不必要的計算資源。蘋果的研究人員將展示“數據集分解:用變長序列預訓練LLMs”,這是一種新方法,將包含各種長度文檔的數據集分解為“桶”或子集的聯集,這些子集具有相同的長度序列,然後在訓練時,同時從所有桶中抽取變長序列和批次大小(見圖2)。這使得在長序列上進行有效的預訓練,並能隨著數據集大小的增長而有效擴展,並顯著提高模型在標準評估中的性能。
探索大型語言模型的推理能力
大型語言模型在許多任務中表現出色,但當前模型的推理能力仍然是一個重要的研究問題。了解這些模型的當前能力和限制,不僅能幫助研究社群持續改進它們,還能幫助開發者更智能地利用LLMs於其生產應用中。
在NeurIPS上,蘋果的研究人員將展示“變壓器能推理多遠?全球性障礙和歸納草稿”,這篇論文探討了為什麼基於變壓器的模型在需要“全球推理”的任務中表現不佳,這需要結合學習的概念和推斷。研究顯示,這些模型無法有效地學習具有高全球性的分佈,因此無法組合長鏈的三段論證(例如,從a⇒b和b⇒c推斷a⇒c),並且這篇論文引入了一個“歸納草稿”的概念,可以使變壓器超越這些限制。
理解自我監督學習(SSL)
有效且高效地學習表示是深度學習的一個基本目標,因為這些表示可以用於許多下游任務。通過推進該領域對不同學習表示方法的理解,這方面的研究最終可能導致這些下游任務的性能改善。
在NeurIPS上,蘋果的研究人員將展示“JEPA如何避免噪聲特徵:深度線性自我蒸餾網絡的隱性偏見”,這探討了兩種主要自我監督學習範式(遮罩自動編碼器(MAE)和聯合嵌入預測架構(JEPA))在學習表示時的差異。研究顯示,在一個簡化的線性環境中,兩種方法學習相似的表示,JEPA偏向於學習“高影響”特徵(即以高回歸係數為特徵的特徵),為在該領域中實證觀察到的現象提供了正式解釋,即JEPA似乎優先考慮抽象特徵而非細粒度的像素信息。
在蘋果展位展示機器學習研究
在展覽期間,NeurIPS的參加者將能夠在我們的展位323號與蘋果的機器學習研究進行互動,包括:
MLX – 一個開源的數組框架,專為蘋果矽設計,能在蘋果硬體上進行快速靈活的機器學習和科學計算。該框架針對蘋果矽的統一記憶體架構進行了優化,並同時利用CPU和GPU。在NeurIPS上,MLX的演示將展示在設備上使用MLX進行大型模型推理和訓練;具體來說,是在iPhone上微調一個70億參數的LLM,在iPad上使用大型擴散模型生成圖像,以及在蘋果矽的Mac上使用多個大型語言模型生成文本。
MobileClip – 一系列適合移動設備的圖像-文本模型,具有混合的CNN/變壓器架構。這些模型的組合達到了最佳的準確性和延遲平衡。MobileCLIP-B在零樣本分類和檢索方面取得了最先進的結果,並能理解關係、屬性和順序信息。在NeurIPS上,參觀者將能夠親身體驗MobileCLIP如何在iPhone上實時執行零樣本場景分類。
支持機器學習研究社群
蘋果致力於支持機器學習社群中弱勢群體,我們很高興再次贊助幾個在NeurIPS 2024現場舉辦活動的親和團體,包括“黑人工智能”(12月10日的工作坊)、“女性機器學習”(WiML)(12月10日的工作坊)、“拉丁裔人工智能”(12月10日的工作坊)和“酷兒人工智能”(12月11日的工作坊,12月12日的社交活動)。除了贊助這些工作坊外,蘋果的員工也將參加這些活動及其他活動。
了解更多蘋果在NeurIPS 2024的機器學習研究
NeurIPS是最大且最重要的年度機器學習研究會議之一,蘋果很自豪再次在這個活動中分享創新的新研究,並與參加的社群建立聯繫。以上內容僅突顯了蘋果機器學習研究人員在NeurIPS 2024上展示的一小部分作品,關於我們參與的全面概述和日程安排可以在這裡找到。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!