發(fā)布時(shí)間 : 2021年1月18日 00:37
摘要:[目的/意義]構(gòu)建與新時(shí)代相適應(yīng)的人民日?qǐng)?bào)分詞語料庫,為中文信息處理提供最新的精標(biāo)注語料,也為從歷時(shí)的角度分析現(xiàn)代漢語提供新的語言資源。[方法/過程]在分析已有漢語分詞語料庫的基礎(chǔ)上,描述所構(gòu)建新時(shí)代人民日?qǐng)?bào)語料庫的數(shù)據(jù)源、標(biāo)注規(guī)范和流程,通過構(gòu)建分詞自動(dòng)標(biāo)注模型測(cè)評(píng)語料庫的性能,并與已有語料庫進(jìn)行對(duì)比。[結(jié)果/結(jié)論]新時(shí)代人民日?qǐng)?bào)語料庫遵循現(xiàn)代漢語語料庫基本加工規(guī)范,規(guī)模大,時(shí)間跨度長(zhǎng)。選取其中的2018年1月部分,基于條件隨機(jī)場(chǎng)構(gòu)建分詞模型,與1998年1月人民日?qǐng)?bào)語料進(jìn)行性能測(cè)評(píng)與對(duì)比,所得到的各項(xiàng)具體測(cè)評(píng)指標(biāo)表明,新時(shí)代人民日?qǐng)?bào)語料整體性能突出,1998年語料無法替代,當(dāng)前構(gòu)建該語料庫非常必要。
作者:黃水清, 王東波
出處:《圖書情報(bào)工作》 2019年第22期5-12,共8頁
關(guān)鍵詞:新時(shí)代; 人民日?qǐng)?bào); 自動(dòng)分詞; 條件隨機(jī)場(chǎng)模型; 語料庫; NEPD
原文出處:http://corpus.njau.edu.cn/achievements/001
相關(guān)文章閱讀
什么是語料庫
幾個(gè)常見的漢語語料庫分析
互聯(lián)網(wǎng)上開放的中文語料庫有哪些
分詞介紹