分詞介紹?

索引：483
發(fā)布時(shí)間：2021-03-07
點(diǎn)擊次數(shù)：
加入收藏
發(fā)表評(píng)論
語(yǔ)音閱讀

詞是“最小的能獨(dú)立運(yùn)用的語(yǔ)言單位”。中文與英文文本有很大的不同，對(duì)英文而言，一個(gè)單詞就是一個(gè)詞，由空格隔開(kāi)；而漢語(yǔ)是以字為基本的書(shū)寫單位，一個(gè)詞由一個(gè)或多個(gè)漢字組成，詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記，需要人為切分。漢語(yǔ)在分詞中也沒(méi)有統(tǒng)一的構(gòu)詞標(biāo)準(zhǔn)，因此中文自動(dòng)分詞比英文復(fù)雜得多。中文自動(dòng)分詞是利用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語(yǔ)自動(dòng)識(shí)別的過(guò)程，是中文信息處理的一個(gè)重要組成部分，在中文文本的自動(dòng)檢索、過(guò)濾、分類及摘要，中文文本的自動(dòng)校對(duì)，漢外機(jī)器翻譯，漢字識(shí)別與漢語(yǔ)語(yǔ)音識(shí)別的后處理，漢語(yǔ)語(yǔ)音合成等領(lǐng)域中都扮演著極為重要的角色。對(duì)于中文自動(dòng)分詞的研究已經(jīng)取得了很多成果，出現(xiàn)了眾多的算法。根據(jù)其特點(diǎn)，可以將現(xiàn)有的分詞算法分為三大類：基于規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于機(jī)器學(xué)習(xí)的分詞方法等。

基于規(guī)則的分詞方法又稱基于字符串匹配的分詞方法、基于字典的分詞方法等，它是按照一定的策略將待分詞的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配。若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出一個(gè)詞）。典型的方法有最大匹配法（MM）、最大逆向匹配法（RMM）、最佳匹配法等?；谝?guī)則的分詞方法算法簡(jiǎn)單、易于實(shí)現(xiàn)，且分詞一致性好，但是也存在巨大的局限性。第一，過(guò)于依賴詞典和規(guī)則，受詞典領(lǐng)域限制，幾乎無(wú)法解決未登錄詞問(wèn)題，缺乏自學(xué)習(xí)的智能性；第二，詞典構(gòu)建工作量大，且詞本身沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義，沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的詞集；第三，存在交集型和組合型歧義切分問(wèn)題，不同詞典產(chǎn)生的歧義也不同。

隨著數(shù)學(xué)和概率對(duì)中文自動(dòng)分詞的影響，基于統(tǒng)計(jì)的分詞方法逐漸成為主流。該方法的主要思想：詞是穩(wěn)定的組合，因此在上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰出現(xiàn)的概率或頻率能較好反映成詞的可信度?？梢詫?duì)訓(xùn)練文本中相鄰出現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們之間的互現(xiàn)信息?；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí)，便可以認(rèn)為此字組可能構(gòu)成了一個(gè)詞。典型的方法有隱馬爾可夫模型、最大熵模型等?；诮y(tǒng)計(jì)的分詞算法不需要構(gòu)建詞典，不受待處理文本的領(lǐng)域限制，能夠有效地自動(dòng)排除歧義，能夠一定程度上識(shí)別新詞。但是該方法需要大量的訓(xùn)練文本，計(jì)算量較大。

基于機(jī)器學(xué)習(xí)的分詞方法與基于統(tǒng)計(jì)的分詞方法均是依賴訓(xùn)練語(yǔ)料庫(kù)的方法。典型的方法有條件隨機(jī)場(chǎng)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等?；跈C(jī)器學(xué)習(xí)的分詞方法智能性強(qiáng)，能較好地適應(yīng)不斷變化的語(yǔ)言現(xiàn)象，對(duì)新詞的識(shí)別效果好，且分詞正確率高。但是，基于機(jī)器學(xué)習(xí)的自動(dòng)分詞算法往往比較復(fù)雜，對(duì)硬件具有較高要求；分詞過(guò)程對(duì)于研究者來(lái)說(shuō)是一個(gè)“黑箱”，結(jié)果可解釋性較差。

參考文獻(xiàn)：
[1] 張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報(bào)探索,2008(11):53-56.
[2] 奉國(guó)和,鄭偉.國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J].圖書(shū)情報(bào)工作,2011,55(02):41-45.

原文出處：http://corpus.njau.edu.cn/wiki/wiki/004

相關(guān)文章閱讀
幾個(gè)常見(jiàn)的漢語(yǔ)語(yǔ)料庫(kù)分析
互聯(lián)網(wǎng)上開(kāi)放的中文語(yǔ)料庫(kù)有哪些
新時(shí)代人民日?qǐng)?bào)分詞模型