开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開(kāi)APP
          userphoto
          未登錄

          開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

          開(kāi)通VIP
          LLMs之benchmark之OpenCompass:OpenCompass的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

          LLMs之benchmark之OpenCompass:OpenCompass的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略


          OpenCompass的簡(jiǎn)介

          2023年7月發(fā)布,OpenCompass 是面向大模型評(píng)測(cè)的一站式平臺(tái)。其主要特點(diǎn)如下:

          • 開(kāi)源可復(fù)現(xiàn):提供公平、公開(kāi)、可復(fù)現(xiàn)的大模型評(píng)測(cè)方案

          • 全面的能力維度:五大維度設(shè)計(jì),提供 70+ 個(gè)數(shù)據(jù)集約 40 萬(wàn)題的的模型評(píng)測(cè)方案,全面評(píng)估模型能力

          • 豐富的模型支持:已支持 20+ HuggingFace 及 API 模型

          • 分布式高效評(píng)測(cè):一行命令實(shí)現(xiàn)任務(wù)分割和分布式評(píng)測(cè),數(shù)小時(shí)即可完成千億模型全量評(píng)測(cè)

          • 多樣化評(píng)測(cè)范式:支持零樣本、小樣本及思維鏈評(píng)測(cè),結(jié)合標(biāo)準(zhǔn)型或?qū)υ?huà)型提示詞模板,輕松激發(fā)各種模型最大性能

          • 靈活化拓展:想增加新模型或數(shù)據(jù)集?想要自定義更高級(jí)的任務(wù)分割策略,甚至接入新的集群管理系統(tǒng)?OpenCompass 的一切均可輕松擴(kuò)展!

          Github地址GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

          1、性能榜單

          將陸續(xù)提供開(kāi)源模型和 API 模型的具體性能榜單,請(qǐng)見(jiàn)?OpenCompass Leaderboard?。

          2、最新進(jìn)展?

          • [2024.05.08]?我們支持了以下四個(gè)MoE模型的評(píng)測(cè)配置文件:?Mixtral-8x22B-v0.1,?Mixtral-8x22B-Instruct-v0.1,?Qwen1.5-MoE-A2.7B,?Qwen1.5-MoE-A2.7B-Chat?。歡迎試用!
          • [2024.04.30]?我們支持了計(jì)算模型在給定數(shù)據(jù)集上的壓縮率(Bits per Character)的評(píng)測(cè)方法(官方文獻(xiàn))。歡迎試用llm-compression評(píng)測(cè)集! 🔥🔥🔥
          • [2024.04.26]?我們報(bào)告了典型LLM在常用基準(zhǔn)測(cè)試上的表現(xiàn),歡迎訪(fǎng)問(wèn)文檔以獲取更多信息!🔥🔥🔥.
          • [2024.04.26]?我們廢棄了 OpenCompass 進(jìn)行多模態(tài)大模型評(píng)測(cè)的功能,相關(guān)功能轉(zhuǎn)移至?VLMEvalKit,推薦使用!🔥🔥🔥.
          • [2024.04.26]?我們支持了?ArenaHard評(píng)測(cè)?歡迎試用!🔥🔥🔥.
          • [2024.04.22]?我們支持了?LLaMA3?和?LLaMA3-Instruct?的評(píng)測(cè),歡迎試用!🔥🔥🔥.
          • [2024.02.29]?我們支持了MT-Bench、AlpacalEval和AlignBench,更多信息可以在這里找到。
          • [2024.01.30]?我們發(fā)布了OpenCompass 2.0。更多信息,請(qǐng)?jiān)L問(wèn)CompassKitCompassHubCompassRank

          3、OpenCompass 2.0

          我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評(píng)測(cè)體系,它主要由三大核心模塊構(gòu)建而成:CompassKit、CompassHub以及CompassRank

          CompassRank?系統(tǒng)進(jìn)行了重大革新與提升,現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系,不僅囊括了開(kāi)源基準(zhǔn)測(cè)試項(xiàng)目,還包含了私有基準(zhǔn)測(cè)試。此番升級(jí)極大地拓寬了對(duì)行業(yè)內(nèi)各類(lèi)模型進(jìn)行全面而深入測(cè)評(píng)的可能性。

          CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測(cè)試資源導(dǎo)航平臺(tái),其設(shè)計(jì)初衷旨在簡(jiǎn)化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測(cè)試庫(kù)中進(jìn)行搜索與利用的過(guò)程。為了讓更多獨(dú)具特色的基準(zhǔn)測(cè)試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用,我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo),通過(guò)訪(fǎng)問(wèn)這里,即可啟動(dòng)提交流程。

          CompassKit?是一系列專(zhuān)為大型語(yǔ)言模型和大型視覺(jué)-語(yǔ)言模型打造的強(qiáng)大評(píng)估工具合集,它所提供的全面評(píng)測(cè)工具集能夠有效地對(duì)這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測(cè)量和科學(xué)評(píng)估。在此,我們誠(chéng)摯邀請(qǐng)您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過(guò)程中積極嘗試運(yùn)用我們的工具包,以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。

          OpenCompass的安裝和使用方法

          安裝

          下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。

          💻 環(huán)境配置

          面向開(kāi)源模型的GPU環(huán)境
          conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
          conda activate opencompass
          git clone https://github.com/open-compass/opencompass opencompass
          cd opencompass
          pip install -e .
          面向API模型測(cè)試的CPU環(huán)境
          conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
          conda activate opencompass
          git clone https://github.com/open-compass/opencompass opencompass
          cd opencompass
          pip install -e .
          # 如果需要使用各個(gè)API模型,請(qǐng) `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴(lài)

          📂 數(shù)據(jù)準(zhǔn)備

          # 下載數(shù)據(jù)集到 data/ 處
          wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
          unzip OpenCompassData-core-20240207.zip

          有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行,詳細(xì)步驟請(qǐng)參考安裝指南

          🏗? ?評(píng)測(cè)

          確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后,可以通過(guò)以下命令評(píng)測(cè) LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能:

          python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl

          OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置,你可以通過(guò)?工具?列出所有可用的模型和數(shù)據(jù)集配置。

          # 列出所有配置
          python tools/list_configs.py
          # 列出所有跟 llama 及 mmlu 相關(guān)的配置
          python tools/list_configs.py llama mmlu

          你也可以通過(guò)命令行去評(píng)測(cè)其它 HuggingFace 模型。同樣以 LLaMA-7b 為例:

          python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b

          通過(guò)命令行或配置文件,OpenCompass 還支持評(píng)測(cè) API 或自定義模型,以及更多樣化的評(píng)測(cè)策略。請(qǐng)閱讀快速開(kāi)始了解如何運(yùn)行一個(gè)評(píng)測(cè)任務(wù)。

          更多教程請(qǐng)查看我們的文檔。

          📖 數(shù)據(jù)集支持

          語(yǔ)言知識(shí)推理考試
          字詞釋義
          • WiC
          • SummEdits
          成語(yǔ)習(xí)語(yǔ)
          • CHID
          語(yǔ)義相似度
          • AFQMC
          • BUSTM
          指代消解
          • CLUEWSC
          • WSC
          • WinoGrande
          翻譯
          • Flores
          • IWSLT2017
          多語(yǔ)種問(wèn)答
          • TyDi-QA
          • XCOPA
          多語(yǔ)種總結(jié)
          • XLSum
          知識(shí)問(wèn)答
          • BoolQ
          • CommonSenseQA
          • NaturalQuestions
          • TriviaQA
          文本蘊(yùn)含
          • CMNLI
          • OCNLI
          • OCNLI_FC
          • AX-b
          • AX-g
          • CB
          • RTE
          • ANLI
          常識(shí)推理
          • StoryCloze
          • COPA
          • ReCoRD
          • HellaSwag
          • PIQA
          • SIQA
          數(shù)學(xué)推理
          • MATH
          • GSM8K
          定理應(yīng)用
          • TheoremQA
          • StrategyQA
          • SciBench
          綜合推理
          • BBH
          初中/高中/大學(xué)/職業(yè)考試
          • C-Eval
          • AGIEval
          • MMLU
          • GAOKAO-Bench
          • CMMLU
          • ARC
          • Xiezhi
          醫(yī)學(xué)考試
          • CMB
          理解長(zhǎng)文本安全代碼
          閱讀理解
          • C3
          • CMRC
          • DRCD
          • MultiRC
          • RACE
          • DROP
          • OpenBookQA
          • SQuAD2.0
          內(nèi)容總結(jié)
          • CSL
          • LCSTS
          • XSum
          • SummScreen
          內(nèi)容分析
          • EPRSTMT
          • LAMBADA
          • TNEWS
          長(zhǎng)文本理解
          • LEval
          • LongBench
          • GovReports
          • NarrativeQA
          • Qasper
          安全
          • CivilComments
          • CrowsPairs
          • CValues
          • JigsawMultilingual
          • TruthfulQA
          健壯性
          • AdvGLUE
          代碼
          • HumanEval
          • HumanEvalX
          • MBPP
          • APPs
          • DS1000

          📖 模型支持

          開(kāi)源模型API 模型
          • InternLM
          • LLaMA
          • LLaMA3
          • Vicuna
          • Alpaca
          • Baichuan
          • WizardLM
          • ChatGLM2
          • ChatGLM3
          • TigerBot
          • Qwen
          • BlueLM
          • Gemma
          • ……
          • OpenAI
          • Gemini
          • Claude
          • ZhipuAI(ChatGLM)
          • Baichuan
          • ByteDance(YunQue)
          • Huawei(PanGu)
          • 360
          • Baidu(ERNIEBot)
          • MiniMax(ABAB-Chat)
          • SenseTime(nova)
          • Xunfei(Spark)
          • ……

          🔜 路線(xiàn)圖

          • ?主觀(guān)評(píng)測(cè)
            • ?發(fā)布主觀(guān)評(píng)測(cè)榜單
            • ?發(fā)布主觀(guān)評(píng)測(cè)數(shù)據(jù)集
          • ?長(zhǎng)文本
            • ?支持廣泛的長(zhǎng)文本評(píng)測(cè)集
            • ?發(fā)布長(zhǎng)文本評(píng)測(cè)榜單
          • ?代碼能力
            • ?發(fā)布代碼能力評(píng)測(cè)榜單
            • ?提供非Python語(yǔ)言的評(píng)測(cè)服務(wù)
          • ?智能體
            • ?支持豐富的智能體方案
            • ?提供智能體評(píng)測(cè)榜單
          • ?魯棒性
            • ?支持各類(lèi)攻擊方法

          OpenCompass的案例應(yīng)用

          持續(xù)更新中……

          本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
          打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
          猜你喜歡
          類(lèi)似文章
          本地部署完全離線(xiàn)版并上傳PDF知識(shí)庫(kù)的對(duì)話(huà)大模型
          Llama-3-8B 中文版來(lái)了,在自己設(shè)備上運(yùn)行試試看吧
          上海AI實(shí)驗(yàn)室推出OpenCompass開(kāi)放評(píng)測(cè)體系,提供大模型能力參考
          萬(wàn)字長(zhǎng)文:LLM - 大語(yǔ)言模型發(fā)展簡(jiǎn)史
          微軟首次使用GPT-4進(jìn)行指令微調(diào),新任務(wù)零樣本性能再提升
          StarCoder: 最先進(jìn)的代碼大模型
          更多類(lèi)似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
          綁定賬號(hào)成功
          后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點(diǎn)擊這里聯(lián)系客服!

          聯(lián)系客服