当前位置 - 養生大全網 - 養生食譜 - 專利文獻檢索工具(system)能夠自動翻譯專利文獻的翻譯系統。

專利文獻檢索工具(system)能夠自動翻譯專利文獻的翻譯系統。

本文介紹了壹個實用的專利文獻漢英機器翻譯系統,包括系統的總體設計和系統中使用的主要翻譯技術。隨著我國知識產權意識的增強和國際交流的迫切需要,傳統的專利翻譯人員手工翻譯已經不能滿足快速增長的專利文獻翻譯需求,這在壹定程度上阻礙了我國專利技術的推廣和交流。自動機器翻譯和輔助翻譯是解決這壹問題的有效途徑。近年來,機器翻譯技術取得了很大的突破,特別是統計機器翻譯技術的發展,大大提高了翻譯質量,為專利文獻翻譯提供了新的有力手段。

專利文獻翻譯的特點

與普通文本的翻譯相比,專利文獻的翻譯具有以下特點:

●涉及專業領域多。專利文獻具有很強的領域特性,直接使用現有的通用翻譯軟件很難得到理想的翻譯結果。但是專利文獻的領域可以按照國際專利分類號來劃分,比較清晰。同時,經過多年的積累,相對容易獲得特定領域的雙語平行語料庫,方便機器翻譯的語料收集和領域劃分。

●使用了許多技術術語和法律術語。專利文獻包含大量的技術術語和法律術語,對譯者的綜合素質要求很高。相應的,專利翻譯的報酬也很高。例如,在國外將壹種母語翻譯成外語所支付的翻譯費約為每100源詞30 ~ 50美元。對於壹些稀有語言,翻譯服務的價格會更高。因此,利用自動翻譯或輔助翻譯來解決技術術語和法律術語的翻譯問題,可以大大降低專利翻譯的成本。

●翻譯的語言很多。由於專利文獻具有壹定的民族特色,專利文獻往往需要在不同語言之間進行翻譯。如果每個語言翻譯方向都建立壹個翻譯系統,那就需要很大的開發成本。因此,使用與語言無關的翻譯技術是壹種合理的選擇。

●文件形式規範,語言嚴謹。專利文獻具有法律文獻的某些特征,因此與新聞或口頭翻譯相比,文字的格式相對固定,語言相對規範。專利文獻中往往包含壹些固定的句式,俗稱“句集”,如“本發明的目的是X”、“權利要求N中所述的X以Y為特征”,其中X和Y可以是任意的詞語或句子,N是任意的數字組合。這些句型模板適合機器自動翻譯。

通過分析專利文獻的上述特點,可以看出,對於形式規範、領域明確的專利翻譯,使用機器翻譯方法是有可能達到更好的翻譯效果的。特別是最近快速發展的統計機器翻譯技術,具有語言獨立性好、領域可移植性好、知識獲取方便、開發周期短等特點,非常適合構建專利文獻翻譯系統。

中科院計算所多語種交互技術實驗室具有多年的機器翻譯研究經驗,近年來在統計機器翻譯研究方面取得了良好的成績。北京東方靈盾科技有限公司對專利文獻翻譯的需求很大,希望借助自動翻譯軟件進壹步提高翻譯質量和效率。受東方淩盾科技有限公司的委托,計算研究人員利用多語種交互實驗室積累的統計機器翻譯技術,結合專利文獻翻譯的特點,設計並實現了壹個特定領域的中英專利文獻翻譯系統。目前,該系統的翻譯領域是中醫藥專利文獻。由於采用了統計機器翻譯技術,該系統可以很容易地移植到其他技術領域的專利翻譯中。

系統總體設計

為了滿足大規模、多用戶、並發任務的需求,本系統采用服務器/客戶端網絡服務模式,采用多線程調度。系統的物理結構和邏輯流程如下:

1.物理結構

漢英專利文獻機器翻譯系統的物理結構由兩部分組成,包括:

●翻譯引擎服務器:負責提供翻譯服務,管理翻譯資源。

●客戶端:負責向用戶呈現翻譯結果,提供輔助翻譯工具,向服務器提交用戶請求。

其中,服務器主要存放翻譯核心解碼器及其所需的各類資源,如短語列表、語言模型、模板庫、詞典、記憶庫等。服務器統壹管理這些資源,合理調度。同時,服務器負責每個用戶線程的調度和時間片分配,協調每個用戶提交任務的優先級。

客戶端分為普通用戶客戶端和管理員用戶客戶端,不同的用戶有不同的權限。客戶端為用戶提供了方便的編輯和修改界面,同時為用戶提供了查看任務狀態和服務器狀態的功能,可以實時訪問和修改服務器上的壹些資源。通過客戶端,用戶可以方便地批量上傳文件進行翻譯,並可以修改返回的結果,重新提交翻譯,批量導出翻譯結果。

服務器和客戶端都是可以獨立運行的進程,它們通過網絡相互連接。

2.邏輯流程

系統的邏輯結構是系統的整體業務框架,描述了從數據輸入,通過系統內部處理得到的預期結果,到最終輸出的全過程(本系統的邏輯流程參考圖見圖1)。

具體來說,系統的主要流程描述如下:

●翻譯服務:負責翻譯用戶提交的句子或文本文件,輸出翻譯結果。翻譯過程中會調用內存管理程序、詞典管理程序、模板庫管理程序,訪問統計翻譯模型庫。

●內存管理:負責組織和管理內存,並執行查詢、添加、修改、刪除和導出翻譯示例等操作。當用戶或翻譯人員提交內存操作請求時,內存管理模塊訪問內存,執行相應的操作並反饋結果。

●詞典管理:負責組織管理系統中的所有詞典,並進行詞典查詢、添加、刪除、批量導入導出等操作。當用戶或翻譯人員提交詞典操作請求時,詞典管理模塊訪問系統詞典庫,執行相應的操作並反饋結果。

●模板庫管理:負責組織和管理模板庫,進行模板的查詢、添加、修改、刪除、導入、導出等操作。當用戶或翻譯人員提交模板操作請求時,模板管理模塊訪問模板庫,執行相應的操作並反饋結果。

●用戶管理:負責接收和執行用戶的添加、刪除、設置權限等操作。

系統中使用的主要翻譯技術

該系統主要基於統計翻譯技術,該技術結合了基於模板和基於記憶的翻譯方法。

1.基於統計的翻譯

統計機器翻譯技術是目前國際上領先的機器翻譯技術,它克服了傳統的基於規則的翻譯方法的主要缺點。在傳統的基於規則的機器翻譯方法中,翻譯知識主要體現在詞典和規則中,詞典和規則主要由人類專家編寫。這種方法的主要問題是:人類專家編寫語言知識需要耗費大量的人力、物力和時間;用書面知識很難涵蓋現實翻譯環境中的各種問題。書面語言知識在面對沖突時沒有很好的解決方案;書面語言知識不便於移植到不同的語言和領域。在統計機器翻譯中,所有的翻譯知識都來自真實的平行語料庫,通過統計建模自動學習平行語料庫中的翻譯知識,從而克服了人類專家在匯編知識時面臨的主要問題。綜上所述,統計機器翻譯有以下優點:

(1)很容易移植到不同的知識領域。只要獲得新領域的雙語平行語料庫,就可以快速構建適合該領域的翻譯系統。專利有規範的領域劃分體系,很容易獲得不同領域的專利翻譯文本,所以統計機器翻譯的這壹特性特別適合專利翻譯系統。

(2)易於移植到不同的語言。統計機器翻譯具有最大的語言獨立性,只需很少的語言處理就可以構建新語言對的翻譯系統。這大大降低了需要翻譯成多種語言的專利的系統開發成本。

(3)不需要手動編寫規則。所有翻譯知識均從雙語平行語料庫中自動獲取,大大減少了系統開發所需的人力、物力和時間。統計翻譯系統是基於統計模型的,它也有合理的解決方案來克服知識的沖突。

(4)系統的翻譯質量可以隨著訓練數據的增加而逐漸提高。隨著專利翻譯系統的使用,可以產生越來越多的雙語平行語料庫,在使用過程中可以進壹步提高系統的翻譯性能,提高翻譯質量。

在系統實現中,研究人員采用了基於短語的統計機器翻譯模型。該模型以短語為基本翻譯單位,從雙語語料庫中自動獲取所有短語翻譯,同時獲取短語之間的翻譯概率,即翻譯模型。此外,我們還在訓練階段獲得了目標語言模型。在翻譯過程中,翻譯模塊根據訓練好的翻譯模型和語言模型,通過壹定的解碼算法,選擇最可能的候選短語翻譯組合作為整句的翻譯結果。

2.基於模板的翻譯

基於模板的方法便於系統翻譯模式相似的句子。特定領域的專利文獻往往包含壹些固定的句型。例如,以下是中醫藥領域的幾項專利的標題:

壹種治療風濕性心臟病的中藥

壹種治療骨質增生的藥袋

壹種具有安神作用的無糖中藥組合物及其制備方法

壹種具有減肥作用的糊狀保健食品及其制備方法。

可以看出,這幾個標題在句式上有很大的相似性,可以用“治療X的A Y”和“具有X功能的A Y及其制備方法”兩個模板來概括。在翻譯系統中,壹個完整的翻譯模板包括“模板的源語言部分”和“模板的目標語言部分”,每個部分又分為“模板的恒定部分”和“模板的可變部分”。例如,上述兩個模板在該翻譯系統中表示如下:

##2{…}用於治療##1{…}

= = & gt壹##2為治療##1

具有##1{…}功能的##2{…}及其制備方法

= = & gt壹種具有#1效果的#2及其制備方法

其中“##N”是模板的變量部分,“N”用於區分目標語言中不同變量的對應關系。在變量後面的“{…}”中,允許添加壹些約束條件來限制變量的匹配,比如匹配字符串的長度、匹配方式(在子句開頭匹配還是在子句結尾匹配)、變量中必須包含或者不得包含的單詞等,以增加模板的表達能力。這裏的模板可以匹配整個句子和分句。

在模板匹配之後,上面的例子被翻譯成下面的形式:

壹種治療風濕性心臟病的中藥

壹種治療骨質增生的藥袋

壹種具有安神作用的無糖中藥組合物及其制備方法

壹種具有減肥作用的糊狀保健食品及其制備方法

可以看出,通過句型模板匹配,不僅可以很好地翻譯壹些固定的句型,還可以實現壹些長距離的句子排序,彌補了基於短語的統計翻譯方法在長距離排序上的不足。其次,模板匹配後,模板中的壹些常量已經被正確翻譯,統計翻譯解碼器只需要翻譯剩下的短語片段,可以在壹定程度上減輕統計解碼器的負擔。

該系統定義的句型模板直觀,易於語言工作者理解。用戶可以根據待翻譯文本的句型特點添加翻譯模板,大大增加了系統的靈活性。

3.基於記憶的翻譯

在使用系統的過程中,用戶可以批量將翻譯正確的句子添加到內存中。在翻譯過程中,如果內存中存在相同的句子,系統可以快速搜索其正確的翻譯。當記憶庫積累到壹定規模時,可以加入到訓練語料中,進壹步提高系統的自動翻譯質量。

此外,翻譯系統還允許用戶根據需要添加領域翻譯詞典和用戶翻譯詞典,增強了用戶對系統的掌控能力。

圖2以中文文本的翻譯為例,給出了系統的主要翻譯流程。由此,讀者可以看出上述翻譯技巧在整個翻譯過程中的作用和地位。對於壹個輸入的中文文本,首先通過內存管理模塊搜索翻譯記憶,如果翻譯結果已經存在,則直接返回;否則,系統調用分詞工具進行中文分詞,並對分詞結果進行後處理,然後調用模板匹配模塊對文本進行模板匹配,最後進行基於統計的翻譯。統計翻譯需要調用統計翻譯模型庫,即翻譯模型和語言模型。

系統的主要功能和性能

用戶可以通過系統提供的用戶界面輕松打開修改後的文件,並動態添加翻譯術語和翻譯模板來指導翻譯結果。同時,他們可以即時在詞典中查找正在修改的生僻字,並將修改後的正確結果批量添加到內存中。在修改的同時,用戶仍然可以批量向服務器提交翻譯任務進行排隊,任務翻譯完成後會提示下載翻譯結果文件。系統的設計充分考慮了多用戶多任務的並發執行,批量翻譯任務在服務器後臺處理,不影響客戶端其他非翻譯任務的執行。

1.翻譯質量

該系統采用東方靈盾科技有限公司提供的中醫領域8萬對句子(平均句子長度為31字)進行訓練。翻譯質量的評估采用國際通用的評估指標Bleu和通用的評估工具MTeval-V11b.pl..在訓練語料外200句的測試集上,當只有壹個標準參考答案句時,系統自動翻譯的Bleu值為0.3020。

這裏和國際上最新的機器翻譯水平做壹個對比:在2006年國際知名的NIST機器翻譯漢英翻譯大規模數據集評測中,NIST子集(每句有四個參考答案)的最好成績是0.3393,Gale Gale子集(每句有1個參考答案)的最好成績是0.1470。NIST機器翻譯評測使用的訓練數據和測試數據均來自新聞領域,其訓練數據的規模遠大於本次專利翻譯系統使用的數據。雖然兩者沒有直接的可比性,但可以看出,該系統在專利領域的翻譯水平已經達到甚至超過了世界上最好的新聞領域僅用少量訓練語料的翻譯水平。

2.翻譯速度

翻譯的速度是以每小時翻譯多少單詞來衡量的。目前該系統的翻譯速度為654.38+0.4萬字/小時。平均每個專利標題20個單詞,每個專利摘要200個單詞,系統工作12小時後可以自動翻譯84000個標題或8400篇摘要。這樣的翻譯速度完全可以滿足日常輔助翻譯工作的需要。

綜上所述,該系統采用國際領先的統計翻譯技術,結合基於模板和基於記憶的翻譯方法,實現了壹個實用的漢英專利文獻翻譯系統。該系統不僅可以實現自動翻譯功能,還可以提供方便的輔助翻譯功能。用戶可以修改自動翻譯的結果,動態添加詞典和模板指導翻譯,並批量將糾正後的結果添加到內存中。目前,該系統已進入試用階段,翻譯質量和速度已滿足用戶的基本需求。

(作者傅雷、、何、為中國科學院計算技術研究所研究生)