詞是“最小的能獨(dú)立運(yùn)用的語(yǔ)言單位”。中文與英文文本有很大的不同,對(duì)英文而言,一個(gè)單詞就是一個(gè)詞,由空格隔開(kāi);而漢語(yǔ)是以字為基本的書(shū)寫單位,一個(gè)詞由一個(gè)或多個(gè)漢字組成,詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,需要人為切分。漢語(yǔ)在分詞中也沒(méi)有統(tǒng)一的構(gòu)詞標(biāo)準(zhǔn),因此中文自動(dòng)分詞比英文復(fù)雜得多。中文自動(dòng)分詞是利用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語(yǔ)自動(dòng)識(shí)別的過(guò)程,是中文信息處理的一個(gè)重要組成部分,在中文文本的自動(dòng)檢索、過(guò)濾、分類及摘要,中文文本的自動(dòng)校對(duì),漢外機(jī)器翻譯,漢字識(shí)別與漢語(yǔ)語(yǔ)音識(shí)別的后處理,漢語(yǔ)語(yǔ)音合成等領(lǐng)域中都扮演著極為重要的角色。對(duì)于中文自動(dòng)分詞的研究已經(jīng)取得了很多成果,出現(xiàn)了眾多的算法。根據(jù)其特點(diǎn),可以將現(xiàn)有的分詞算法分為三大類:基于規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于機(jī)器學(xué)習(xí)的分詞方法等。
基于規(guī)則的分詞方法又稱基于字符串匹配的分詞方法、基于字典的分詞方法等,它是按照一定的策略將待分詞的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配。 若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。典型的方法有最大匹配法(MM)、最大逆向匹配法(RMM)、最佳匹配法等?;谝?guī)則的分詞方法算法簡(jiǎn)單、易于實(shí)現(xiàn),且分詞一致性好,但是也存在巨大的局限性。第一,過(guò)于依賴詞典和規(guī)則,受詞典領(lǐng)域限制,幾乎無(wú)法解決未登錄詞問(wèn)題,缺乏自學(xué)習(xí)的智能性;第二,詞典構(gòu)建工作量大,且詞本身沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義,沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的詞集;第三,存在交集型和組合型歧義切分問(wèn)題,不同詞典產(chǎn)生的歧義也不同。
隨著數(shù)學(xué)和概率對(duì)中文自動(dòng)分詞的影響,基于統(tǒng)計(jì)的分詞方法逐漸成為主流。該方法的主要思想:詞是穩(wěn)定的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰出現(xiàn)的概率或頻率能較好反映成詞的可信度??梢詫?duì)訓(xùn)練文本中相鄰出現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們之間的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可以認(rèn)為此字組可能構(gòu)成了一個(gè)詞。典型的方法有隱馬爾可夫模型、最大熵模型等?;诮y(tǒng)計(jì)的分詞算法不需要構(gòu)建詞典,不受待處理文本的領(lǐng)域限制,能夠有效地自動(dòng)排除歧義,能夠一定程度上識(shí)別新詞。但是該方法需要大量的訓(xùn)練文本,計(jì)算量較大。
基于機(jī)器學(xué)習(xí)的分詞方法與基于統(tǒng)計(jì)的分詞方法均是依賴訓(xùn)練語(yǔ)料庫(kù)的方法。典型的方法有條件隨機(jī)場(chǎng)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等?;跈C(jī)器學(xué)習(xí)的分詞方法智能性強(qiáng),能較好地適應(yīng)不斷變化的語(yǔ)言現(xiàn)象,對(duì)新詞的識(shí)別效果好,且分詞正確率高。但是,基于機(jī)器學(xué)習(xí)的自動(dòng)分詞算法往往比較復(fù)雜,對(duì)硬件具有較高要求;分詞過(guò)程對(duì)于研究者來(lái)說(shuō)是一個(gè)“黑箱”,結(jié)果可解釋性較差。
參考文獻(xiàn):
[1] 張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報(bào)探索,2008(11):53-56.
[2] 奉國(guó)和,鄭偉.國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J].圖書(shū)情報(bào)工作,2011,55(02):41-45.
原文出處:http://corpus.njau.edu.cn/wiki/wiki/004
相關(guān)文章閱讀
幾個(gè)常見(jiàn)的漢語(yǔ)語(yǔ)料庫(kù)分析
互聯(lián)網(wǎng)上開(kāi)放的中文語(yǔ)料庫(kù)有哪些
新時(shí)代人民日?qǐng)?bào)分詞模型