日韩欧美一级在线播放_欧美亚洲一区在线_欧美成人在线网站_日韩欧美国产一区二区三区_亚洲三级在线播放_日韩写真欧美这视频_成人av电影观看_日本伦理一区二区_日韩综合视频在线观看_国产成人精品午夜

關注 >   >  正文

擊敗LLaMA?史上超強「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉(zhuǎn)贊

評論

前幾天公布的LLM排行榜引發(fā)業(yè)內(nèi)人士廣泛討論,新模型Falcon在性能上真的能打過LLaMA嗎?符堯?qū)崪y來了!

前段時間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個社區(qū)激起千層浪。


(資料圖)

但是,獵鷹真的比LLaMA好嗎?

簡短回答:可能不是。

符堯團隊對模型做了更深入的測評:

「我們在MMLU上復現(xiàn)了LLaMA 65B的評估,得到了61.4的分數(shù),接近官方分數(shù)(63.4),遠高于其在Open LLM Leaderboard上的分數(shù)(48.8),而且明顯高于獵鷹(52.7)。」

沒有花哨的提示工程,沒有花哨的解碼,一切都是默認設置。

目前,Github上已經(jīng)公開了代碼和測試方法。

對于獵鷹超越LLaMA存疑,LeCun表態(tài),測試腳本的問題…

LLaMA真·實力

目前在OpenLLM排行榜上,F(xiàn)alcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內(nèi)的研究人員的力薦。

然而,有些人對此表示疑慮。

先是一位網(wǎng)友質(zhì)疑,LLaMA這些數(shù)字從哪來,看起來與論文數(shù)字不一致…

隨后,OpenAI科學家Andrej Karpathy也對LLaMA 65B為什么在Open LLM排行榜上的分數(shù)明顯低于官方(48.8 v.s. 63.4)表示關注。

并發(fā)文,到目前為止,我一直避免在推特上發(fā)表關于獵鷹的文章,因為這一點,不確定。

為了弄清楚這個問題,符堯和團隊成員決定對LLaMA 65B進行一次公開的測試,結(jié)果得到61.4分。

在測試中,研究者沒有使用任何特殊機制,LLaMA 65B就能拿到這個分數(shù)。

這一結(jié)果恰恰證明了,如果想要模型實現(xiàn)接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根據(jù)就是,近來符堯團隊發(fā)表的一篇Chain-of-Thought Hub論文的發(fā)現(xiàn)。

當然,符堯表示,他們這一測評并非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個領域做出了重大的貢獻!

另外,F(xiàn)alcon還有更加方便的使用許可,這也讓它有很大的發(fā)展?jié)摿Α?/p>

對于這一最新測評,網(wǎng)友BlancheMinerva指出,公平的比較應該在默認設置下運行獵鷹(Falcon)在MMLU上。

對此,符堯稱這是正確的,并正進行這項工作,預計在一天后可以得到結(jié)果。

不管最終的結(jié)果怎樣,要知道GPT-4這座山峰才是開源社區(qū)真正想要追求的目標。

OpenLLM排行榜問題

來自Meta的研究人員稱贊,符堯很好地再現(xiàn)了LLaMa的結(jié)果,并指出了OpenLLM排行榜的問題。

與此同時,他還分享了關于OpenLLM排行榜的一些問題。

首先,MMLU的結(jié)果:LLaMa 65B MMLU結(jié)果在排行榜上是15分,但對7B模型來說是一樣的。13B、30B模型也存在較小的性能差距。

OpenLLM真的需要在公布哪個模型是最好的之前看看這個。

基準:這些基準是如何選擇的?

ARC 25 shot和Hellaswag 10 shot似乎與LLM并不特別相關。如果能在其中加入一些生成式基準就更好了。雖然生成式基準有其局限性,但它們?nèi)匀皇怯杏玫摹?/p>

單一平均分:將結(jié)果減少到單一分數(shù)總是很吸引人的,平均分是最容易的。

但在這種情況下,4個基準的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?

在LLM快速迭代的世界里,開發(fā)這樣一個排行榜肯定有一定的價值。

還有來自谷歌研究人員Lucas Beyer也發(fā)表了自己的觀點,

瘋狂的是,NLP研究人員對同一個基準有不同的理解,因此導致了完全不同的結(jié)果。同時,每當我的同事實現(xiàn)一個指標時,我都會立即問他們是否真的檢查將官方代碼的完美重現(xiàn),如果沒有,就放棄他們的結(jié)果。

另外,他還表示,據(jù)我所知,無論模型如何,它實際上都不會重現(xiàn)原始基準測試的結(jié)果。

網(wǎng)友附和道,這就是LLM基準的現(xiàn)實…

Falcon——開源、可商用、性能強

說到Falcon,其實值得我們再好好回顧一下。

按LeCun的說法,大模型時代,開源最重要。

而在Meta的LLaMA代碼遭泄之后,各路開發(fā)者都開始躍躍欲試。

Falcon正是由阿聯(lián)酋阿布扎比的技術創(chuàng)新研究所(TII)開發(fā)的一支奇兵。

剛發(fā)布時從性能上看,F(xiàn)alcon比LLaMA的表現(xiàn)更好。

目前,「Falcon」有三個版本——1B、7B和40B。

TII表示,F(xiàn)alcon迄今為止最強大的開源語言模型。其最大的版本,F(xiàn)alcon 40B,擁有400億參數(shù),相對于擁有650億參數(shù)的LLaMA來說,規(guī)模上還是小了一點。

不過,此前TII曾表示,別看咱Falcon規(guī)模雖小,性能卻很能打。

先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發(fā)布將打破LLM的獲取方式,并讓研究人員和創(chuàng)業(yè)者能夠以此提出最具創(chuàng)新性的使用案例。

FalconLM的兩個版本,F(xiàn)alcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位于第三。

而前文所講的有關排行榜的問題也正是這個。

盡管「Falcon」的論文目前還沒公開發(fā)布,但Falcon 40B已經(jīng)在經(jīng)過精心篩選的1萬億token網(wǎng)絡數(shù)據(jù)集的上進行了大量訓練。

研究人員曾透露,「Falcon」在訓練過程非常重視在大規(guī)模數(shù)據(jù)上實現(xiàn)高性能的重要性。

我們都知道的是,LLM對訓練數(shù)據(jù)的質(zhì)量非常敏感,這就是為什么研究人員會花大量的精力構(gòu)建一個能夠在數(shù)萬個CPU核心上進行高效處理的數(shù)據(jù)管道。

目的就是,在過濾和去重的基礎上從網(wǎng)絡中提取高質(zhì)量的內(nèi)容。

目前,TII已經(jīng)發(fā)布了精煉的網(wǎng)絡數(shù)據(jù)集,這是一個經(jīng)過精心過濾和去重的數(shù)據(jù)集。實踐證明,非常有效。

僅用這個數(shù)據(jù)集訓練的模型可以和其它LLM打個平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的質(zhì)量和影響力。

此外,F(xiàn)alcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發(fā)布后,第二個真正開源的模型。

另外,還有一點非常重要——Falcon是目前唯一的可以免費商用的開源模型。

在早期,TII要求,商業(yè)用途使用Falcon,如果產(chǎn)生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。

可是財大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止,所有對Falcon的商業(yè)化使用和微調(diào)都不會收取任何費用。

土豪們表示,現(xiàn)在暫時不需要通過這個模型掙錢。

而且,TII還在全球征集商用化方案。

對于有潛力的科研和商業(yè)化方案,他們還會提供更多的「訓練算力支持」,或者提供進一步的商業(yè)化機會。

這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!

對于初創(chuàng)企業(yè)來說,這簡直就是來自中東土豪的「AI大模型創(chuàng)業(yè)一站式解決方案」。

根據(jù)開發(fā)團隊稱,F(xiàn)alconLM 競爭優(yōu)勢的一個重要方面是訓練數(shù)據(jù)的選擇。

研究團隊開發(fā)了一個從公共爬網(wǎng)數(shù)據(jù)集中提取高質(zhì)量數(shù)據(jù)并刪除重復數(shù)據(jù)的流程。

在徹底清理多余重復內(nèi)容后,保留了 5 萬億的token——足以訓練強大的語言模型。

40B的Falcon LM使用1萬億個token進行訓練, 7B版本的模型訓練token達到 1.5 萬億。

(研究團隊的目標是使用RefinedWeb數(shù)據(jù)集從Common Crawl中僅過濾出質(zhì)量最高的原始數(shù)據(jù))

此外,F(xiàn)alcon的訓練成本相對來說更加可控。

TII稱,與GPT-3相比,F(xiàn)alcon在只使用75%的訓練計算預算的情況下,就實現(xiàn)了顯著的性能提升。

而且在推斷(Inference)時只需要只需要20%的計算時間,成功實現(xiàn)了計算資源的高效利用。

標簽:

今日熱點

熱點排行

最近更新

所刊載信息部分轉(zhuǎn)載自互聯(lián)網(wǎng),并不代表本網(wǎng)贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

聯(lián)系我們| 中國品牌網(wǎng) | 滬ICP備2022005074號-18 營業(yè)執(zhí)照  Copyright © 2018@. All Rights Reserved.

日韩欧美一级在线播放_欧美亚洲一区在线_欧美成人在线网站_日韩欧美国产一区二区三区_亚洲三级在线播放_日韩写真欧美这视频_成人av电影观看_日本伦理一区二区_日韩综合视频在线观看_国产成人精品午夜
亚洲欧美日韩国产另类专区| 九九国产精品视频| 免费看精品久久片| 色综合网色综合| 亚洲欧美日本在线| 色噜噜狠狠一区二区三区果冻| 中文字幕日韩精品一区| 成人app下载| 亚洲国产成人一区二区三区| 国产成人在线观看| 欧美一区二区三区不卡| 一区二区三区丝袜| 韩国精品主播一区二区在线观看 | 欧美在线一二三| 久久综合久久综合久久综合| 国产一区二区精品久久91| 日韩一区二区三区电影| 蜜桃一区二区三区在线| 欧美一区二区美女| 日韩精品亚洲专区| 久久只精品国产| 青青草国产精品97视觉盛宴| 日韩女优av电影| 免费精品视频在线| 国产午夜亚洲精品不卡| 91色婷婷久久久久合中文| 亚洲成国产人片在线观看| 91精品国产91久久久久久一区二区 | 国产精品嫩草99a| 欧美一区二区三区视频| 偷拍与自拍一区| 精品久久久久久最新网址| 久久99久国产精品黄毛片色诱| 国产精品久久三| 欧美久久久久中文字幕| 91农村精品一区二区在线| 国内成人自拍视频| 亚洲精品v日韩精品| 精品国产1区二区| 欧美午夜电影一区| 国产成人自拍网| 亚洲女人****多毛耸耸8| 69成人精品免费视频| 成人夜色视频网站在线观看| 亚洲一级二级在线| 欧美哺乳videos| 欧美日韩精品一区二区三区蜜桃| 国产精品12区| 日韩av一区二区三区| 亚洲欧美激情插 | 精品国产电影一区二区| 欧美一区二区视频在线观看2020| 91亚洲资源网| 天堂成人免费av电影一区| 国产精品久线在线观看| 国产精品入口麻豆九色| 91麻豆精品国产91久久久久久久久 | 欧美精品在欧美一区二区少妇| 日韩毛片一二三区| 欧美xxxxxxxxx| 久久综合网色—综合色88| 2023国产精品自拍| 国产三级精品在线| 久久久久久久网| 精品国产污污免费网站入口 | 91麻豆精品国产自产在线观看一区| www.激情成人| 欧美日韩免费观看一区二区三区| 成人丝袜视频网| 在线视频中文字幕一区二区| 91视频一区二区三区| 色综合欧美在线视频区| www.99精品| 91在线播放网址| 911精品产国品一二三产区| 欧美成人精品高清在线播放| 日韩精品一区在线| 亚洲欧洲美洲综合色网| 日本人妖一区二区| 成人高清免费观看| 成人激情综合网站| 欧美男生操女生| 久久久99精品免费观看不卡| 中文字幕 久热精品 视频在线| 国产精品全国免费观看高清 | 中文字幕亚洲一区二区va在线| 日韩在线一区二区| 粉嫩欧美一区二区三区高清影视| 成人高清免费在线播放| 欧美日韩午夜精品| 制服丝袜av成人在线看| 国产精品女人毛片| 男人的天堂亚洲一区| 色婷婷久久久综合中文字幕| 91精品国产综合久久久久久久久久| 欧美日韩不卡一区二区| 国产精品久久久爽爽爽麻豆色哟哟 | 久久影视一区二区| 免费观看一级欧美片| 91亚洲国产成人精品一区二区三| 欧美一区二区三区视频免费 | 中文字幕国产一区| 免费高清成人在线| 国产成人亚洲综合a∨婷婷| 欧美精品久久99久久在免费线| 亚洲视频在线观看一区| 国产精品一区久久久久| 日韩一区二区三区精品视频| 一区二区三区四区在线播放| 白白色亚洲国产精品| 亚洲国产精品激情在线观看| 久久精品久久99精品久久| 3751色影院一区二区三区| 亚洲综合成人网| 欧美日韩亚洲国产综合| 天天影视涩香欲综合网| 欧美视频自拍偷拍| 秋霞午夜av一区二区三区| 日韩午夜激情免费电影| 美女视频一区二区三区| 日韩欧美久久一区| 风间由美一区二区三区在线观看| 国产午夜精品久久久久久免费视| 精品一区二区免费看| 欧美一区二区国产| 蜜臀av性久久久久蜜臀aⅴ四虎| 99久久国产综合色|国产精品| 日韩精品中午字幕| 国产中文一区二区三区| 国产精品免费av| 欧美精品v日韩精品v韩国精品v| 免费观看30秒视频久久| 欧美白人最猛性xxxxx69交| 国产精品99久久久久久宅男| 久久久久久黄色| 欧美日韩精品免费| 奇米精品一区二区三区四区 | 4438x亚洲最大成人网| 久久成人综合网| 欧美一级免费大片| 成人中文字幕合集| 亚洲成人午夜影院| 亚洲伦在线观看| 91啪在线观看| 五月综合激情日本mⅴ| 欧美精品一区二区在线观看| 91在线视频网址| 夜夜精品视频一区二区| 欧美国产日本视频| 欧美一区二区视频观看视频| 国产成人综合视频| 五月天久久比比资源色| 久久精品视频在线免费观看| 欧美性做爰猛烈叫床潮| 成人午夜视频网站| 精品影院一区二区久久久| 国产精品每日更新| 欧美不卡123| 欧美精品日韩精品| 国产精品影视在线观看| 免费成人美女在线观看.| 国产精品毛片大码女人| 国产精品素人一区二区| 精品欧美黑人一区二区三区| 色综合久久久久久久| 国产米奇在线777精品观看| 性久久久久久久久| 亚洲欧美另类图片小说| 精品国内片67194| 91精品国产一区二区| 在线视频中文字幕一区二区| aaa亚洲精品一二三区| 91在线观看下载| 99久久精品99国产精品| 91久久精品网| 欧美三级电影网| 日本二三区不卡| 色先锋aa成人| 激情国产一区二区| 亚洲夂夂婷婷色拍ww47| 亚洲国产一区在线观看| 日韩黄色免费网站| 免费成人av在线| 麻豆91精品视频| 国产成人aaa| 欧美日韩一区二区三区四区| 欧美午夜精品理论片a级按摩| 欧美精品一卡二卡| 91精品一区二区三区在线观看| 日韩一级高清毛片| 欧美写真视频网站| 日韩女优视频免费观看| 亚洲国产精品精华液ab| 亚洲动漫第一页| 国产一区美女在线| 在线视频一区二区三| 欧美精品一区二区久久婷婷| 18成人在线视频| 久久国产精品99精品国产| 国产酒店精品激情|