久久AV国产综合色大全_妖精视频yjsp毛片永久_日韩视频在线观看_五月天av影院网_欧美日韩国产自在自现_毛片lu尤物播放_玩弄老年妇女过程_久久国产老熟女精品_欧日韩不卡在线观看_曰本a级毛片无卡中文字幕

推廣文章

Site PathHome > > 推廣文章 > 語料庫
0

新時代人民日報分詞模型

  • 索引482
  • 發(fā)布時間2021-03-01
  • 點(diǎn)擊次數(shù)
  • 加入收藏
  • 發(fā)表評論
  • 語音閱讀
1. 隱馬爾科夫模型(HMM)是中文信息處理中的一個基本模型,用途比較廣泛,如漢語分詞、詞性標(biāo)注及語音識別等,在NLP中占有很重要的地位。在HMM中有兩個概念——狀態(tài)和觀測值,在詞性標(biāo)注中,狀態(tài)是詞性,觀測值是詞語序列,標(biāo)注的過程就是用觀測值預(yù)測隱藏狀態(tài)的過程。在HMM中有三個重要的參數(shù),分別是狀態(tài)發(fā)生的先驗(yàn)概率、狀態(tài)之間變化的轉(zhuǎn)換概率和特定狀態(tài)下產(chǎn)生某一觀測值的概率。

2. 條件隨機(jī)場(CRF)模型是在2001年由Lafferty提出的判別式概率無向圖學(xué)習(xí)模型,是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。條件隨機(jī)場是一個序列標(biāo)注算法,其結(jié)合了隱馬爾科夫模型和最大熵模型的特點(diǎn),不僅可以考慮詞語本身和上下文特征,還可以加入詞典等外部特征,具有較好的實(shí)體識別效果。因而我們選擇CRF做序列標(biāo)注建模。

3. 長短時記憶模型(LSTM)1997年, Hochreiter等在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了LSTM單元,它解決了RNN的梯度消失和長期依賴問題。LSTM基本結(jié)構(gòu)由輸入門(input gates)、遺忘門(forget gates)、輸出門(output gates)三種結(jié)構(gòu)組成,通過門結(jié)構(gòu)讓信息選擇性地通過,實(shí)現(xiàn)所需信息的記憶和其他信息的遺忘。LSTM每個循環(huán)模塊中有四層結(jié)構(gòu):3個sigmoid層,1個tanh層。LSTM中還存在其他隱藏狀態(tài),一般稱之為細(xì)胞狀態(tài),呈水平直線貫穿隱藏層,是LSTM的關(guān)鍵環(huán)節(jié),線性交互較少,易于保存信息。細(xì)胞狀態(tài)無法選擇性的傳遞信息,更新和保持細(xì)胞狀態(tài)需要借助門結(jié)構(gòu)(gate)來實(shí)現(xiàn),門結(jié)構(gòu)由一個sigmoid層和一個逐點(diǎn)乘積的操作組成。LSTM通過忘記門、輸入門、輸出門三種門結(jié)構(gòu)實(shí)現(xiàn)對細(xì)胞信息的增加和刪除。但由于LSTM神經(jīng)網(wǎng)絡(luò)的信息輸入是單方向的,從而會忽略上下文信息。因此,通過雙向LSTM對一個訓(xùn)練序列向前向后各訓(xùn)練一個LSTM模型,再將訓(xùn)練的2個模型的輸出進(jìn)行線性組合,使得序列中每一個節(jié)點(diǎn)都能獲得完整的上下文信息。


4. BERT全稱是來自變換器的雙向編碼器表征量,Jacob等人于2018年末發(fā)布的一種新型語言模型。BERT采用了雙向Transfromer結(jié)構(gòu),其模型結(jié)構(gòu)如下圖:
分詞算法


BERT模型中運(yùn)用多層自注意力機(jī)制代替?zhèn)鹘y(tǒng)的RNN、CNN神經(jīng)網(wǎng)絡(luò),有效的解決了自然語言處理中棘手的長期依賴問題。與其他語言表示模型不同,BERT旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示。因此,預(yù)訓(xùn)練的BERT表示可以通過一個額外的輸出層進(jìn)行微調(diào),適用于廣泛任務(wù)的最先進(jìn)模型的構(gòu)建,比如問答任務(wù)和語言推理,無需針對具體任務(wù)做大幅架構(gòu)修改。BERT在多項(xiàng)自然語言處理任務(wù)中均取得顯著效果。

參考文獻(xiàn):
[1] Lafferty J D, Mccallum A, Pereira FCN.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001:282-289.
[2] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[3] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv:1508.01991.2015.

[4] Devlin Jacob, Chang Ming-Wei, Lee Kenton, Toutanova Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. eprint arXiv:1810.04805, 2018.

原文出處:http://corpus.njau.edu.cn/wiki/wiki/005

相關(guān)文章閱讀
幾個常見的漢語語料庫分析
互聯(lián)網(wǎng)上開放的中文語料庫有哪些
分詞介紹

0