新時代人民日報分詞模型

索引：482
發(fā)布時間：2021-03-01
點(diǎn)擊次數(shù)：
加入收藏
發(fā)表評論
語音閱讀

1. 隱馬爾科夫模型（HMM）是中文信息處理中的一個基本模型，用途比較廣泛，如漢語分詞、詞性標(biāo)注及語音識別等，在NLP中占有很重要的地位。在HMM中有兩個概念——狀態(tài)和觀測值，在詞性標(biāo)注中，狀態(tài)是詞性，觀測值是詞語序列，標(biāo)注的過程就是用觀測值預(yù)測隱藏狀態(tài)的過程。在HMM中有三個重要的參數(shù)，分別是狀態(tài)發(fā)生的先驗(yàn)概率、狀態(tài)之間變化的轉(zhuǎn)換概率和特定狀態(tài)下產(chǎn)生某一觀測值的概率。

2. 條件隨機(jī)場（CRF）模型是在2001年由Lafferty提出的判別式概率無向圖學(xué)習(xí)模型，是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。條件隨機(jī)場是一個序列標(biāo)注算法，其結(jié)合了隱馬爾科夫模型和最大熵模型的特點(diǎn)，不僅可以考慮詞語本身和上下文特征，還可以加入詞典等外部特征，具有較好的實(shí)體識別效果。因而我們選擇CRF做序列標(biāo)注建模。

3. 長短時記憶模型（LSTM）1997年， Hochreiter等在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了LSTM單元，它解決了RNN的梯度消失和長期依賴問題。LSTM基本結(jié)構(gòu)由輸入門（input gates）、遺忘門（forget gates）、輸出門（output gates）三種結(jié)構(gòu)組成，通過門結(jié)構(gòu)讓信息選擇性地通過，實(shí)現(xiàn)所需信息的記憶和其他信息的遺忘。LSTM每個循環(huán)模塊中有四層結(jié)構(gòu)：3個sigmoid層，1個tanh層。LSTM中還存在其他隱藏狀態(tài)，一般稱之為細(xì)胞狀態(tài)，呈水平直線貫穿隱藏層，是LSTM的關(guān)鍵環(huán)節(jié)，線性交互較少，易于保存信息。細(xì)胞狀態(tài)無法選擇性的傳遞信息，更新和保持細(xì)胞狀態(tài)需要借助門結(jié)構(gòu)（gate）來實(shí)現(xiàn)，門結(jié)構(gòu)由一個sigmoid層和一個逐點(diǎn)乘積的操作組成。LSTM通過忘記門、輸入門、輸出門三種門結(jié)構(gòu)實(shí)現(xiàn)對細(xì)胞信息的增加和刪除。但由于LSTM神經(jīng)網(wǎng)絡(luò)的信息輸入是單方向的，從而會忽略上下文信息。因此，通過雙向LSTM對一個訓(xùn)練序列向前向后各訓(xùn)練一個LSTM模型，再將訓(xùn)練的2個模型的輸出進(jìn)行線性組合，使得序列中每一個節(jié)點(diǎn)都能獲得完整的上下文信息。

4. BERT全稱是來自變換器的雙向編碼器表征量，Jacob等人于2018年末發(fā)布的一種新型語言模型。BERT采用了雙向Transfromer結(jié)構(gòu)，其模型結(jié)構(gòu)如下圖：

BERT模型中運(yùn)用多層自注意力機(jī)制代替?zhèn)鹘y(tǒng)的RNN、CNN神經(jīng)網(wǎng)絡(luò)，有效的解決了自然語言處理中棘手的長期依賴問題。與其他語言表示模型不同，BERT旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示。因此，預(yù)訓(xùn)練的BERT表示可以通過一個額外的輸出層進(jìn)行微調(diào)，適用于廣泛任務(wù)的最先進(jìn)模型的構(gòu)建，比如問答任務(wù)和語言推理，無需針對具體任務(wù)做大幅架構(gòu)修改。BERT在多項(xiàng)自然語言處理任務(wù)中均取得顯著效果。

參考文獻(xiàn)：
[1] Lafferty J D, Mccallum A, Pereira FCN.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001:282-289.
[2] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[3] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv:1508.01991.2015．

[4] Devlin Jacob, Chang Ming-Wei, Lee Kenton, Toutanova Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. eprint arXiv:1810.04805, 2018.

原文出處：http://corpus.njau.edu.cn/wiki/wiki/005

相關(guān)文章閱讀
幾個常見的漢語語料庫分析
互聯(lián)網(wǎng)上開放的中文語料庫有哪些
分詞介紹

久久AV国产综合色大全_妖精视频yjsp毛片永久_日韩视频在线观看_五月天av影院网_欧美日韩国产自在自现_毛片lu尤物播放_玩弄老年妇女过程_久久国产老熟女精品_欧日韩不卡在线观看_曰本a级毛片无卡中文字幕

推廣文章

新時代人民日報分詞模型