北二外發(fā)布大語言模型翻譯質(zhì)量評測報告
中新網(wǎng)北京6月23日電(記者 李京澤)6月23日,北京第二外國語學院發(fā)布《大語言模型翻譯質(zhì)量評測報告 BISU-AiTQA(v1.0)》。
據(jù)悉,該評測突破國際現(xiàn)有評測以英語為核心的現(xiàn)狀,構(gòu)建了以漢語為核心,覆蓋多語種、多領(lǐng)域的大語言模型翻譯質(zhì)量評測體系,具有開創(chuàng)性意義,是促進中外人文交流,提升漢語全球表達力的積極探索。
基于多年的外語學科與教學積淀、結(jié)合前期翻譯評測研究成果,北二外集中英語、日語、俄語、法語、阿拉伯語五個語種師生力量,面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通義千問六個國內(nèi)外語言大模型,從當代文學、黨政文獻和外事新聞三個領(lǐng)域開展翻譯質(zhì)量測評研究。
據(jù)了解,BISU-AiTQA(v1.0)以漢語為核心、以中國特色文本為基礎(chǔ),從語言特征維度、神經(jīng)網(wǎng)絡(luò)維度構(gòu)建了包括詞匯多樣性、句法復雜度、篇章銜接度、語言可接受度等在內(nèi)的六項指標體系,著重關(guān)注譯文的語言使用特性,可有效識別模型在詞法、句法和篇章銜接方面的能力,同時考察模型對語義的理解與語言表達能力。
這不僅實現(xiàn)了對大語言模型譯文的多維分析,更以實證方式檢驗了模型對中國話語、文化意涵與政策表述的處理能力,填補了“以漢語為核心”的多語種評測空白。
從評測結(jié)果來看,生成式人工智能目前不完全具備處理復雜語言的能力,在借助人工智能技術(shù)時,使用者必須具有判斷力,而培養(yǎng)這種判斷力正是外語教育重要的育人功能之一。
人工智能時代的外語學習,必要且必須。基于這樣的邏輯,BISU-AiTQA(v1.0)脫胎于文工交叉學科,又反哺語言教學,項目中的多語種多領(lǐng)域語料及翻譯評測指標可廣泛應(yīng)用于翻譯課程、語言測試、語言分析等教學場景,為推動翻譯教育與語言研究的數(shù)字化轉(zhuǎn)型提供重要的實踐平臺。