久久AV国产综合色大全_妖精视频yjsp毛片永久_日韩视频在线观看_五月天av影院网_欧美日韩国产自在自现_毛片lu尤物播放_玩弄老年妇女过程_久久国产老熟女精品_欧日韩不卡在线观看_曰本a级毛片无卡中文字幕

推廣文章

Site PathHome > > 推廣文章 > 語(yǔ)料庫(kù)
0

幾個(gè)常見(jiàn)的漢語(yǔ)語(yǔ)料庫(kù)分析

  • 索引487
  • 發(fā)布時(shí)間2021-03-23
  • 點(diǎn)擊次數(shù)
  • 加入收藏
  • 發(fā)表評(píng)論
  • 語(yǔ)音閱讀
通用漢語(yǔ)分詞語(yǔ)料中,具代表性、影響力大的首先是北京大學(xué)的人民日?qǐng)?bào)分詞語(yǔ)料。該語(yǔ)料庫(kù)目前發(fā)布出來(lái)的主要是1998年1月的人民日?qǐng)?bào)語(yǔ)料,由俞士汶先生帶領(lǐng)北京大學(xué)計(jì)算語(yǔ)言研究所的研究人員完成。該語(yǔ)料庫(kù)的研制過(guò)程中還提出了標(biāo)注規(guī)范,并研究了檢索方法[1-2]。其次是國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù),該語(yǔ)料庫(kù)的突出特征是平衡性和規(guī)模大,不僅具有新聞?wù)Z料而且涵蓋了經(jīng)濟(jì)、軍事、體育等不同領(lǐng)域的素材[3]。再次是清華漢語(yǔ)書(shū)庫(kù)中的分詞語(yǔ)料,該分詞語(yǔ)料的突出特征是基于黎錦熙先生的“凡詞,依句辨品,離句無(wú)品”的語(yǔ)言學(xué)理論實(shí)現(xiàn)對(duì)漢語(yǔ)分詞的[4]。最后是賓州漢語(yǔ)樹(shù)庫(kù)中的分詞語(yǔ)料,該分詞語(yǔ)料庫(kù)的突出特征是按照結(jié)構(gòu)主義語(yǔ)言學(xué)的理論完成對(duì)漢語(yǔ)分詞的[5]。在上述4種漢語(yǔ)分詞語(yǔ)料中,前兩種分詞語(yǔ)料規(guī)模較大,所使用的分詞理念和規(guī)范具有較強(qiáng)的一致性,但是,隨著時(shí)間的推移,語(yǔ)料時(shí)效性問(wèn)題越來(lái)越突出。后兩種分詞語(yǔ)料所采用的語(yǔ)言學(xué)理論具有一定的獨(dú)特性,但規(guī)模上相對(duì)較小,且同樣存在語(yǔ)料時(shí)效性較差的問(wèn)題。

漢語(yǔ)語(yǔ)料庫(kù)分析


參考文獻(xiàn):
[1] 俞士汶,段慧明,朱學(xué)鋒.北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J].中文信息學(xué)報(bào),2002(5):49-64.
[2] 王洪俊,施水才,俞士汶.人民日?qǐng)?bào)標(biāo)注語(yǔ)料的索引方法研究[C]// 全國(guó)計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議.全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005) 論文集.南京: 南京師范大學(xué),2005:576-578.
[3] 國(guó)家語(yǔ)言文字工作委員會(huì).國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)[EB/OL].[2019-06-02]. http://www.cncorpus.org/.
[4] 周強(qiáng).漢語(yǔ)句法樹(shù)庫(kù)標(biāo)注體系[J].中文信息學(xué)報(bào),2004,18(4):2-9.
[5] ANTONY P J,WARRIER N J,SOMAN K P.Penn treebank -based syntactic parsers for South Dravidian languages using a machine learning approach[J]. International journal of computer applications,2010,7(8):14-21

原文出處:http://corpus.njau.edu.cn/wiki/002

相關(guān)文章閱讀
互聯(lián)網(wǎng)上開(kāi)放的中文語(yǔ)料庫(kù)有哪些
分詞介紹
新時(shí)代人民日?qǐng)?bào)分詞模型

0