當前,我國經(jīng)濟發(fā)展方式已轉(zhuǎn)向高質(zhì)量發(fā)展的新階段,依靠資源和要素投入的驅(qū)動力持續(xù)減弱,創(chuàng)新逐漸成為第一動力,源源不斷地發(fā)展出新技術、新業(yè)態(tài)、新模式,持續(xù)提高勞動生產(chǎn)率,加快構(gòu)建了以國內(nèi)大循環(huán)為主體、國內(nèi)國際雙循環(huán)互相促進的新發(fā)展格局。
在過往的一年中,思必馳研發(fā)技術不斷創(chuàng)新,推出發(fā)音人音色定制平臺、DUI標注訓練一體化平臺、智云譯芯平臺、千語千訓系統(tǒng),并上線24K高保真音色,情感合成等技術,助力百業(yè)實現(xiàn)效率提升。同時,思必馳技術在多項比賽中獲得大獎,充分印證了自己的技術創(chuàng)新實力。
(相關資料圖)
01蟬聯(lián)中文醫(yī)療權(quán)威榜單CBLUE
在醫(yī)療行業(yè),人工智能、大數(shù)據(jù)技術等應用場景逐漸豐富,在幫助人類恢復健康中發(fā)揮了重要作用。人工智能技術也逐漸成為影響醫(yī)療行業(yè)發(fā)展和提升醫(yī)療服務水平的重要因素。過去的一年中,思必馳語言與知識團隊在醫(yī)療領域再次取得關鍵突破,在CBLUE2.0月度榜單中蟬聯(lián)冠軍,分別奪得2月、3月榜單冠軍。
基于千萬量級的醫(yī)療領域語料,思必馳自主構(gòu)建了醫(yī)療領域預訓練語言模型和醫(yī)療知識圖譜,針對下游任務微調(diào)并進行模型融合,在醫(yī)療行業(yè)應用中體現(xiàn)了重要價值。榜單任務形式多樣,涉及知識抽取、意圖分類、語義匹配,對話生成等多個基礎NLP技術。
在此之前,思必馳已成功將醫(yī)療領域NLP技術在多個項目中落地,并在CBLUE1.0榜單中取得佳績,此次登頂有效驗證了思必馳語言與知識團隊在醫(yī)療NLP技術的專業(yè)性與全面性。
02刷新Text-to-SQL語義解析任務多個榜單紀錄
在日常生活和生產(chǎn)中,常會產(chǎn)生的海量的數(shù)據(jù),這些數(shù)據(jù)被大量存儲在結(jié)構(gòu)化數(shù)據(jù)庫中。此前,人們通過直接編寫SQL語句和數(shù)據(jù)庫進行交互,但此類方法效率較低。后來,人們開始使用基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)與數(shù)據(jù)庫進行交互,該方法高效簡潔,而NLIDB背后的核心技術就是Text-to-SQL語義解析。
思必馳-上海交大人機交互聯(lián)合實驗室團隊在取得Text-to-SQL任務英文基準榜單Spider第一名后,過去的一年中,又取得Text-to-SQL任務中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務三個最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎上,進一步提出了結(jié)構(gòu)化的動態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時也能夠?qū)崿F(xiàn)高效準確的結(jié)構(gòu)化解碼。
03榮獲IWSLT 2022英中同聲傳譯冠軍
IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,設置了同聲傳譯、離線語音翻譯等7個任務。思必馳-上海交大聯(lián)合團隊(AISP-SJTU)參加英-中同聲傳譯任務,以優(yōu)異的成績獲得Speech-to-Text賽道第一名。
思必馳-上海交大團隊在充分總結(jié)前人經(jīng)驗的基礎上,積極開拓創(chuàng)新,采用了引入預訓練語言模型,大幅提升ASR性能、無限左看,隨機右看等關鍵技術。
本次比賽,結(jié)合各種技術手段打造了英-中同聲傳譯最優(yōu)基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導上比級聯(lián)模型更占優(yōu)勢,未來思必馳-上海交大聯(lián)合團隊希望進一步研究有效的數(shù)據(jù)擴增手段,來提升端到端模型的翻譯效果。
04登頂中文知識圖譜問答權(quán)威榜單KgCLUE
在過去的一年中,思必馳語言與知識團隊研發(fā)的AI-KBQA算法一舉拿下了大規(guī)模權(quán)威中文知識圖譜問答KgCLUE測評榜單第一名,這充分印證了團隊對中文自然語言及知識圖譜精確的語義解析、知識檢索和知識推理能力。
在參與比賽的過程中,思必馳語言與知識團隊針對KBQA任務的特點,從以下三個方面設計并優(yōu)化命名實體識別、實體鏈接、屬性匹配模塊:
高細粒度知識圖譜:團隊預研了千萬量級的高細粒度的中文知識圖譜。在命名實體識別模塊,高細粒度的知識圖譜可以有效幫助模型識別同名實體,提升實體識別的準確性,同時可以有效減少因同名實體帶來的實體鏈接錯誤。
多階段實體鏈接:將實體的檢索分為多個階段,檢索對象擴大至與實體相關的文本片段以提高模型的實體檢索能力。
屬性匹配增強:鑒于實體中往往具有不同值的相似屬性,模型在對實體的屬性進行預測時,不僅對單個屬性進行預測,同時也會對全部的屬性列表進行篩選,從而在相似屬性上更具有區(qū)分度。
團隊在參與比賽過程中,不斷改進和優(yōu)化模型,使用模型集成的方式來增強模型的泛化能力。AI-KBQA算法的得分由最初的94.81提升至98.78,在大規(guī)模中文知識圖譜問答榜KgCLUE1.0 中排名第一,并且在多項子任務得分上同樣取得了第一名的佳績。
思必馳已經(jīng)形成產(chǎn)學研一體化的成熟發(fā)展模式,始終堅持基礎源頭技術創(chuàng)新,不斷鞏固技術研發(fā)創(chuàng)新實力,未來思必馳將繼續(xù)深耕技術研發(fā),助力各行各業(yè)實現(xiàn)智慧化發(fā)展。