本論文在2024年EMNLP舉行的第九屆機器翻譯會議(WMT24)上被接受。
口語表達的韻律,包括重音、語調和節奏等特徵,會顯著影響其潛在語義,因此也會影響其文本翻譯。然而,韻律在語音轉文本翻譯(S2TT)系統中很少被研究。特別是,端到端(E2E)系統被提出來作為韻律感知翻譯的合適選擇,因為在做出翻譯決策時,它們可以直接訪問語音信號,但在實踐中是否成功的理解仍然有限。一個主要挑戰是評估翻譯中的韻律感知的困難。為了解決這一挑戰,我們引入了一種評估方法和一個專注的基準(名為ContraProSt),旨在捕捉各種韻律現象。我們的方法使用大型語言模型和可控的文本轉語音(TTS)生成對比示例。通過將英語語音翻譯成德語、西班牙語和日語的實驗,我們發現(a)S2TT模型擁有某種內部的韻律表徵,但韻律信號往往不夠強,無法影響翻譯;(b)E2E系統的表現優於語音識別和文本翻譯系統的級聯,確認了其在這方面的理論優勢;(c)某些級聯系統在翻譯中也捕捉到韻律信息,但僅在依賴於轉錄表面形式的特定情況下有所體現。