久久AV国产综合色大全_妖精视频yjsp毛片永久_日韩视频在线观看_五月天av影院网_欧美日韩国产自在自现_毛片lu尤物播放_玩弄老年妇女过程_久久国产老熟女精品_欧日韩不卡在线观看_曰本a级毛片无卡中文字幕

推廣文章

Site PathHome > > 推廣文章 > 語(yǔ)料庫(kù)
0

什么是語(yǔ)料庫(kù)

  • 索引489
  • 發(fā)布時(shí)間2021-03-29
  • 點(diǎn)擊次數(shù)
  • 加入收藏
  • 發(fā)表評(píng)論
  • 語(yǔ)音閱讀
語(yǔ)料庫(kù)是由人工或機(jī)器標(biāo)注好的真實(shí)語(yǔ)言材料組成的數(shù)據(jù)集。開(kāi)展與自然語(yǔ)言相關(guān)的研究,語(yǔ)料庫(kù)是有效的工具和手段。依據(jù)語(yǔ)料庫(kù)既可以研究語(yǔ)言普遍規(guī)律也可以針對(duì)具體文本開(kāi)展研究。在中文信息處理的研究中,訓(xùn)練語(yǔ)料通常由通用語(yǔ)料和領(lǐng)域語(yǔ)料組成。在漢語(yǔ)通用語(yǔ)料方面,由北京大學(xué)計(jì)算語(yǔ)言研究所構(gòu)建的1998年人民日?qǐng)?bào)語(yǔ)料最具代表性,影響力也最大。但是,隨著時(shí)間的推移,1998年所構(gòu)建的精加工人民日?qǐng)?bào)語(yǔ)料,在詞匯的時(shí)效性、完備性和覆蓋度上均需要進(jìn)行更新、補(bǔ)充和增加。

在這一背景下,以2015至2018年《人民日?qǐng)?bào)》發(fā)表的文章為對(duì)象,我們構(gòu)建了新版的人民日?qǐng)?bào)分詞語(yǔ)料。因?yàn)樾掳嬲Z(yǔ)料庫(kù)收錄的全部是進(jìn)入新世紀(jì)以后的《人民日?qǐng)?bào)》文章,而且均為2012年以后即中國(guó)特色社會(huì)主義進(jìn)入新時(shí)代以后的文章,為區(qū)別于北京大學(xué)的1998年人民日?qǐng)?bào)語(yǔ)料,將該語(yǔ)料命名為新時(shí)代人民日?qǐng)?bào)語(yǔ)料(New Era People’s Daily Segmented Corpus,簡(jiǎn)稱NEPD、NEPD語(yǔ)料或NEPD語(yǔ)料庫(kù))。為促進(jìn)語(yǔ)料資源的開(kāi)放和共享,NEPD的相關(guān)語(yǔ)料將對(duì)學(xué)界公布,供學(xué)術(shù)研究用,并且后續(xù)還將不斷補(bǔ)充最新語(yǔ)料[1]。



參考文獻(xiàn):
[1] 黃水清,王東波.新時(shí)代人民日?qǐng)?bào)分詞語(yǔ)料庫(kù)構(gòu)建、性能及應(yīng)用(一)——語(yǔ)料庫(kù)構(gòu)建及測(cè)評(píng)[J].圖書情報(bào)工作,2019,63(22):5-12.

原文出處:http://corpus.njau.edu.cn/wiki/001

相關(guān)文章閱讀
幾個(gè)常見(jiàn)的漢語(yǔ)語(yǔ)料庫(kù)分析
互聯(lián)網(wǎng)上開(kāi)放的中文語(yǔ)料庫(kù)有哪些
分詞介紹
新時(shí)代人民日?qǐng)?bào)分詞模型

0