在CCKS2020(全國知識(shí)圖譜與語義計(jì)算大會(huì))舉辦的“基于本體的金融知識(shí)圖譜自動(dòng)化構(gòu)建技術(shù)評(píng)測”任務(wù)中,我們的團(tuán)隊(duì)——北京網(wǎng)絡(luò)技術(shù)服務(wù)團(tuán)隊(duì),通過綜合運(yùn)用多種自然語言處理與知識(shí)圖譜技術(shù),最終取得了第五名的成績。本文旨在對(duì)該次評(píng)測中所采用的核心技術(shù)方案與實(shí)現(xiàn)方法進(jìn)行與分享。
一、 任務(wù)背景與挑戰(zhàn)
該評(píng)測任務(wù)旨在推動(dòng)金融領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建技術(shù)發(fā)展。參賽者需基于給定的金融領(lǐng)域本體(Ontology)和標(biāo)注語料,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)端到端的系統(tǒng),能夠從非結(jié)構(gòu)化的金融文本中自動(dòng)抽取實(shí)體、關(guān)系及屬性,并形成符合本體規(guī)范的知識(shí)三元組,最終構(gòu)建成結(jié)構(gòu)化的知識(shí)圖譜。核心挑戰(zhàn)在于:
- 金融領(lǐng)域?qū)I(yè)性:文本中包含大量金融術(shù)語、公司實(shí)體、金融指標(biāo),需要精準(zhǔn)識(shí)別。
- 關(guān)系復(fù)雜性:金融實(shí)體間關(guān)系多樣且定義嚴(yán)謹(jǐn),如“控股”、“發(fā)行”、“屬于”等,對(duì)關(guān)系分類精度要求高。
- 本體約束:抽取的知識(shí)必須嚴(yán)格遵循預(yù)先定義的本體模式(Schema),對(duì)實(shí)體鏈接和關(guān)系對(duì)齊提出了高要求。
- 自動(dòng)化與效率:要求系統(tǒng)全流程自動(dòng)化,并需在有限的評(píng)測時(shí)間內(nèi)處理大規(guī)模文本。
二、 核心技術(shù)方法
我們的解決方案采用了“管道式”(Pipeline)架構(gòu),將任務(wù)分解為命名實(shí)體識(shí)別(NER)、實(shí)體鏈接(Entity Linking)和關(guān)系抽取(Relation Extraction)三個(gè)核心模塊,并輔以后處理與融合策略。
1. 命名實(shí)體識(shí)別(NER)模塊
* 模型選擇:采用預(yù)訓(xùn)練語言模型BERT作為基礎(chǔ),在其上疊加BiLSTM-CRF層,構(gòu)成混合模型。BERT能夠提供深層次的上下文語義表示,BiLSTM能夠有效捕捉序列的長期依賴,CRF層則確保了標(biāo)簽預(yù)測的全局最優(yōu)性。
- 領(lǐng)域適配:為了使模型更好地適應(yīng)金融領(lǐng)域,我們使用了在金融新聞、財(cái)報(bào)等語料上繼續(xù)預(yù)訓(xùn)練的BERT變體(如FinBERT或類似模型)作為初始化,顯著提升了金融實(shí)體(如“市盈率”、“應(yīng)收賬款”)的識(shí)別準(zhǔn)確率。
- 數(shù)據(jù)增強(qiáng):針對(duì)金融標(biāo)注數(shù)據(jù)有限的問題,采用了基于本體的回譯和實(shí)體替換等數(shù)據(jù)增強(qiáng)技術(shù),擴(kuò)充了訓(xùn)練樣本。
2. 實(shí)體鏈接(EL)模塊
* 候選實(shí)體生成:將NER識(shí)別出的實(shí)體提及(Mention),通過字符串模糊匹配與編輯距離,在本體概念庫中進(jìn)行初步檢索,生成候選實(shí)體列表。
- 實(shí)體消歧:構(gòu)建一個(gè)基于BERT的雙塔編碼模型。一個(gè)塔編碼文本中提及的上下文,另一個(gè)塔編碼候選實(shí)體的描述文本(來自本體定義)。通過計(jì)算兩者的語義相似度,選擇相似度最高的候選實(shí)體作為鏈接目標(biāo)。此方法有效解決了金融實(shí)體名稱歧義(如“蘋果”可能指公司或水果)和簡稱問題。
3. 關(guān)系抽取(RE)模塊
* 聯(lián)合抽取思路:為了克服傳統(tǒng)管道方法中錯(cuò)誤傳播的問題,我們探索了基于序列標(biāo)注的聯(lián)合抽取模型。將關(guān)系抽取任務(wù)轉(zhuǎn)化為對(duì)句子中每個(gè)token進(jìn)行“實(shí)體-關(guān)系”聯(lián)合標(biāo)簽的序列標(biāo)注問題。這種方法能夠同時(shí)捕捉同一句子內(nèi)多個(gè)實(shí)體對(duì)的關(guān)系,提升了效率。
- 遠(yuǎn)程監(jiān)督與強(qiáng)化學(xué)習(xí):利用知識(shí)庫(本體)中已有的三元組,對(duì)海量無標(biāo)簽金融文本進(jìn)行遠(yuǎn)程監(jiān)督標(biāo)注,生成噪聲數(shù)據(jù)用于模型預(yù)訓(xùn)練。隨后在精標(biāo)注數(shù)據(jù)上,采用強(qiáng)化學(xué)習(xí)策略對(duì)模型進(jìn)行微調(diào),以減輕噪聲標(biāo)簽帶來的負(fù)面影響,穩(wěn)定提升了關(guān)系分類的F1值。
4. 后處理與知識(shí)融合
* 規(guī)則修正:根據(jù)金融領(lǐng)域規(guī)則和本體約束,設(shè)計(jì)了一系列后處理規(guī)則。例如,對(duì)于“公司A控股公司B”這類句子,確保抽取的“控股”關(guān)系方向正確;對(duì)數(shù)值、日期等屬性進(jìn)行格式化標(biāo)準(zhǔn)化。
- 沖突消解:對(duì)同一來源文本中可能產(chǎn)生的冗余或矛盾三元組,基于置信度(模型預(yù)測概率)和證據(jù)頻次進(jìn)行融合與去重,輸出最可靠的知識(shí)集合。
三、 與展望
本次評(píng)測中,我們的方案通過結(jié)合預(yù)訓(xùn)練語言模型的強(qiáng)大語義理解能力、領(lǐng)域適配策略以及針對(duì)性的模塊設(shè)計(jì),實(shí)現(xiàn)了金融知識(shí)抽取的較高自動(dòng)化水平。最終獲得第五名,驗(yàn)證了方案的有效性。
主要經(jīng)驗(yàn):1)領(lǐng)域特定的預(yù)訓(xùn)練至關(guān)重要;2)針對(duì)金融文本特點(diǎn)(如長句、多實(shí)體)設(shè)計(jì)模型結(jié)構(gòu)能帶來增益;3)后處理規(guī)則是提升結(jié)果合規(guī)性的有效補(bǔ)充。
未來改進(jìn)方向:1)嘗試更先進(jìn)的端到端聯(lián)合學(xué)習(xí)模型,以進(jìn)一步減少模塊間的誤差累積;2)引入圖神經(jīng)網(wǎng)絡(luò)(GNN)對(duì)已抽取的知識(shí)進(jìn)行全局推理和糾錯(cuò);3)探索小樣本和零樣本學(xué)習(xí)技術(shù),以應(yīng)對(duì)金融本體不斷演化和新增關(guān)系類型的挑戰(zhàn)。
通過此次評(píng)測,我們深化了對(duì)金融知識(shí)圖譜構(gòu)建技術(shù)難點(diǎn)的理解,也為后續(xù)研發(fā)更智能、更魯棒的金融信息自動(dòng)化處理系統(tǒng)積累了寶貴經(jīng)驗(yàn)。