您的位置: 首頁(yè) > 新聞 > 高新技術(shù) > 新聞詳情

研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token

時(shí)間:2024-05-13 11:32:01
  • 來(lái)源:IT之家
  • 作者:3DM整理
  • 編輯:方形的圓

IT之家今日(5月13日)消息,研究人員Sepp Hochreiter和Jürgen Schmidhuber在1997年共同提出了長(zhǎng)短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長(zhǎng)期記憶能力不足的問(wèn)題。

研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token

而最近Sepp Hochreiter在arXiv上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號(hào)稱可以解決LSTM長(zhǎng)期以來(lái)“只能按照時(shí)序處理信息”的“最大痛點(diǎn)”,從而“迎戰(zhàn)”目前廣受歡迎的Transformer架構(gòu)。

據(jù)悉,Sepp Hochreiter在新的xLSTM架構(gòu)中采用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),同時(shí)為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項(xiàng)記憶規(guī)則,從而允許相關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地利用RAM,實(shí)現(xiàn)類(lèi)Transformer“可同時(shí)對(duì)所有Token進(jìn)行處理”的并行化操作。

研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token

團(tuán)隊(duì)使用了150億個(gè)Token訓(xùn)練基于xLSTM及Transformer架構(gòu)的兩款模型進(jìn)行測(cè)試,在評(píng)估后發(fā)現(xiàn)xLSTM表現(xiàn)最好,尤其在“語(yǔ)言能力”方面最為突出,據(jù)此研究人員認(rèn)為xLSTM未來(lái)有望能夠與Transformer進(jìn)行“一戰(zhàn)”。

0

玩家點(diǎn)評(píng) 0人參與,0條評(píng)論)

收藏
違法和不良信息舉報(bào)
分享:

熱門(mén)評(píng)論

全部評(píng)論

他們都在說(shuō) 再看看
3DM自運(yùn)營(yíng)游戲推薦 更多+