久久AV国产综合色大全_妖精视频yjsp毛片永久_日韩视频在线观看_五月天av影院网_欧美日韩国产自在自现_毛片lu尤物播放_玩弄老年妇女过程_久久国产老熟女精品_欧日韩不卡在线观看_曰本a级毛片无卡中文字幕

推廣文章

Site PathHome > > 推廣文章 > 語料庫
0

傳統(tǒng)分詞算法總結

  • 索引491
  • 發(fā)布時間2021-04-06
  • 點擊次數(shù)
  • 加入收藏
  • 發(fā)表評論
  • 語音閱讀
1. 最大匹配算法
1.1 正向最大匹配
思想

從左到右盡可能劃分出一段連續(xù)字符,使得其等于詞典中的某個詞,然后將這段連續(xù)字符提取出來,對余下的部分進行同樣的操作。如果第一個字符不是詞典中任何一個詞的前綴,那么這個字符單獨作為一個詞。

算法

輸入:一個未分詞的句子S,一個詞典D

輸出:一個序列的詞

分詞算法總結

1.2 逆向最大匹配
跟正向最大匹配的唯一不同是從右到左盡可能劃分出一段連續(xù)字符。

分詞算法

1.3 雙向最大匹配
歧義指對于一個句子有多個分詞結果。漢語文本中 90.0%左右的句子,F(xiàn)MM 和 BMM 的切分完全重合且正確,9.0%左右的句子 FMM 和 BMM 切分不同,但其中必有一個是正確的(歧義檢測成功),只有不到1.0 %的句子,或者 FMM 和 BMM 的切分雖重合卻是錯的,或者FMM 和 BMM 切分 不同但兩個都不對(歧義檢測失敗)。[1]

雙向最大匹配指從正向最大匹配和逆向最大匹配法的結果中選擇最滿足中文分詞原則的一個分詞結果。詳見Ambiguity Resolution in Chinese Word Segmentation和構建中文分詞器 - 雙向最大匹配法

2. 最短路徑分詞[2]
2.1 最短路徑分詞/最少詞語分詞
最少詞語分詞是在所有的切分過程中選擇詞語數(shù)量最少的分詞結果,如果出現(xiàn)詞語數(shù)量相同的情況,就選擇詞語長度的方差小的那個分詞結果。

最少詞語分詞也叫最短路徑分詞,因為求最少詞語問題可以變成求有向無環(huán)圖(DAG)的最短路徑問題。位置(position)定義為每個字符后面的位置,如果一個句子的字符是從1到n,那么位置就是從0到n,0是第一個字前面的位置,n是最后一個字后面的位置。

0他 1說 2的 3確 4實 5在 6理7


2.2 全切分
將上述所有可能的路徑都當作分詞結果返回,就是全切分方法。

2.3 最大概率分詞
最大概率分詞是最短路徑分詞的變種,在最短路徑中所有邊的權重都是1,如果我們把邊的權重替換成邊對應的詞語的概率,把最短路徑替換成最大概率路徑,分詞的算法就變成了最大概率分詞了。

詞語的概率約等于頻數(shù)除以所有詞的總數(shù),由于求最大概率需要用到概率的連乘,如果把概率替換成對數(shù),連乘就變成了連加。

相比最短路徑分詞,詞典不僅要記載每個詞匯,還要記載每個詞匯出現(xiàn)的頻率。

jieba的基礎分詞器使用的就是最大概率分詞。

2.4 N最短路徑分詞[3]
最短路徑分詞只返回一個結果,全切分返回所有可能的結果,N最短路徑分詞是兩者的折中,返回路徑最短的前N個分詞結果。相應地,也有N最大概率分詞

3. N元語言模型分詞[4]


4. HMM分詞[5]
把分詞當做一個序列標注問題,序列單元是字,序列標簽有B和E,分別代表非詞尾和詞尾。那么一個EBEBEEBBEB序列代表的分詞結果就是E BE BE E BBE B。

HMM語境下,隱狀態(tài)是序列標簽,觀測序列是未分詞的句子。分詞問題就是解碼問題(給定觀測序列,求最有可能的狀態(tài)序列)。

HMM用于另一個序列標注的例子見[6]

參考
漢語自動分詞研究評述 http://59.108.48.5/course/mining/12-13spring/%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE/02-01%E6%B1%89%E8%AF%AD%E8%87%AA%E5%8A%A8%E5%88%86%E8%AF%8D%E7%A0%94%E7%A9%B6%E8%AF%84%E8%BF%B0.pdf
漢語分詞初探 https://unordered.org/timelines/59cd4b0655001000
基于 一 最短路徑方法的中文詞語粗分模型 http://jcip.cipsc.org.cn/UserFiles/File/353基于N_最短路徑方法的中文詞語粗分模型_張華平.pdf
中文分詞算法簡介 https://lujiaying.github.io/posts/2018/01/Chinese-word-segmentation/
用HMM做中文分詞 http://www.52nlp.cn/itenyh版-用hmm做中文分詞一:模型準備
隱馬爾可夫模型詞性標注及其Python實現(xiàn) https://zhuanlan.zhihu.com/p/48260272
原文鏈接:https://zhuanlan.zhihu.com/p/92102484

原文出處:http://corpus.njau.edu.cn/wiki/006
相關文章閱讀
什么是語料庫
幾個常見的漢語語料庫分析
互聯(lián)網上開放的中文語料庫有哪些
分詞介紹

0