研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token
- 來(lái)源:IT之家
- 作者:3DM整理
- 編輯:方形的圓
IT之家今日(5月13日)消息,研究人員Sepp Hochreiter和Jürgen Schmidhuber在1997年共同提出了長(zhǎng)短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長(zhǎng)期記憶能力不足的問(wèn)題。
而最近Sepp Hochreiter在arXiv上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號(hào)稱可以解決LSTM長(zhǎng)期以來(lái)“只能按照時(shí)序處理信息”的“最大痛點(diǎn)”,從而“迎戰(zhàn)”目前廣受歡迎的Transformer架構(gòu)。
據(jù)悉,Sepp Hochreiter在新的xLSTM架構(gòu)中采用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),同時(shí)為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項(xiàng)記憶規(guī)則,從而允許相關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地利用RAM,實(shí)現(xiàn)類(lèi)Transformer“可同時(shí)對(duì)所有Token進(jìn)行處理”的并行化操作。
團(tuán)隊(duì)使用了150億個(gè)Token訓(xùn)練基于xLSTM及Transformer架構(gòu)的兩款模型進(jìn)行測(cè)試,在評(píng)估后發(fā)現(xiàn)xLSTM表現(xiàn)最好,尤其在“語(yǔ)言能力”方面最為突出,據(jù)此研究人員認(rèn)為xLSTM未來(lái)有望能夠與Transformer進(jìn)行“一戰(zhàn)”。
-
傳奇歲月
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
妖神記之巔峰對(duì)決
-
坦克兄弟連(0.1折瘋狂千抽)
-
深淵契約
-
貓狩紀(jì)0.1折
-
同城麻將
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論