LLMs之benchmark之OpenCompass：OpenCompass的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

OpenCompass的簡(jiǎn)介

2023年7月發(fā)布，OpenCompass 是面向大模型評(píng)測(cè)的一站式平臺(tái)。其主要特點(diǎn)如下：

開(kāi)源可復(fù)現(xiàn)：提供公平、公開(kāi)、可復(fù)現(xiàn)的大模型評(píng)測(cè)方案
全面的能力維度：五大維度設(shè)計(jì)，提供 70+ 個(gè)數(shù)據(jù)集約 40 萬(wàn)題的的模型評(píng)測(cè)方案，全面評(píng)估模型能力
豐富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效評(píng)測(cè)：一行命令實(shí)現(xiàn)任務(wù)分割和分布式評(píng)測(cè)，數(shù)小時(shí)即可完成千億模型全量評(píng)測(cè)
多樣化評(píng)測(cè)范式：支持零樣本、小樣本及思維鏈評(píng)測(cè)，結(jié)合標(biāo)準(zhǔn)型或?qū)υ?huà)型提示詞模板，輕松激發(fā)各種模型最大性能
靈活化拓展：想增加新模型或數(shù)據(jù)集？想要自定義更高級(jí)的任務(wù)分割策略，甚至接入新的集群管理系統(tǒng)？OpenCompass 的一切均可輕松擴(kuò)展！

Github地址：GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

1、性能榜單

將陸續(xù)提供開(kāi)源模型和 API 模型的具體性能榜單，請(qǐng)見(jiàn)?OpenCompass Leaderboard?。

2、最新進(jìn)展?

[2024.05.08]?我們支持了以下四個(gè)MoE模型的評(píng)測(cè)配置文件:?Mixtral-8x22B-v0.1,?Mixtral-8x22B-Instruct-v0.1,?Qwen1.5-MoE-A2.7B,?Qwen1.5-MoE-A2.7B-Chat?。歡迎試用!
[2024.04.30]?我們支持了計(jì)算模型在給定數(shù)據(jù)集上的壓縮率（Bits per Character）的評(píng)測(cè)方法（官方文獻(xiàn)）。歡迎試用llm-compression評(píng)測(cè)集! 🔥🔥🔥
[2024.04.26]?我們報(bào)告了典型LLM在常用基準(zhǔn)測(cè)試上的表現(xiàn)，歡迎訪(fǎng)問(wèn)文檔以獲取更多信息！🔥🔥🔥.
[2024.04.26]?我們廢棄了 OpenCompass 進(jìn)行多模態(tài)大模型評(píng)測(cè)的功能，相關(guān)功能轉(zhuǎn)移至?VLMEvalKit，推薦使用！🔥🔥🔥.
[2024.04.26]?我們支持了?ArenaHard評(píng)測(cè)?歡迎試用！🔥🔥🔥.
[2024.04.22]?我們支持了?LLaMA3?和?LLaMA3-Instruct?的評(píng)測(cè)，歡迎試用！🔥🔥🔥.
[2024.02.29]?我們支持了MT-Bench、AlpacalEval和AlignBench，更多信息可以在這里找到。
[2024.01.30]?我們發(fā)布了OpenCompass 2.0。更多信息，請(qǐng)?jiān)L問(wèn)CompassKit、CompassHub和CompassRank。

3、OpenCompass 2.0

我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評(píng)測(cè)體系，它主要由三大核心模塊構(gòu)建而成：CompassKit、CompassHub以及CompassRank。

CompassRank?系統(tǒng)進(jìn)行了重大革新與提升，現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系，不僅囊括了開(kāi)源基準(zhǔn)測(cè)試項(xiàng)目，還包含了私有基準(zhǔn)測(cè)試。此番升級(jí)極大地拓寬了對(duì)行業(yè)內(nèi)各類(lèi)模型進(jìn)行全面而深入測(cè)評(píng)的可能性。

CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測(cè)試資源導(dǎo)航平臺(tái)，其設(shè)計(jì)初衷旨在簡(jiǎn)化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測(cè)試庫(kù)中進(jìn)行搜索與利用的過(guò)程。為了讓更多獨(dú)具特色的基準(zhǔn)測(cè)試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用，我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo)，通過(guò)訪(fǎng)問(wèn)這里，即可啟動(dòng)提交流程。

CompassKit?是一系列專(zhuān)為大型語(yǔ)言模型和大型視覺(jué)-語(yǔ)言模型打造的強(qiáng)大評(píng)估工具合集，它所提供的全面評(píng)測(cè)工具集能夠有效地對(duì)這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測(cè)量和科學(xué)評(píng)估。在此，我們誠(chéng)摯邀請(qǐng)您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過(guò)程中積極嘗試運(yùn)用我們的工具包，以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。

OpenCompass的安裝和使用方法

安裝

下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。

💻 環(huán)境配置

面向開(kāi)源模型的GPU環(huán)境

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

面向API模型測(cè)試的CPU環(huán)境

conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各個(gè)API模型，請(qǐng) `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴(lài)

📂 數(shù)據(jù)準(zhǔn)備

# 下載數(shù)據(jù)集到 data/ 處
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行，詳細(xì)步驟請(qǐng)參考安裝指南。

🏗? ?評(píng)測(cè)

確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后，可以通過(guò)以下命令評(píng)測(cè) LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能：

python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl

OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置，你可以通過(guò)?工具?列出所有可用的模型和數(shù)據(jù)集配置。

# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相關(guān)的配置
python tools/list_configs.py llama mmlu

你也可以通過(guò)命令行去評(píng)測(cè)其它 HuggingFace 模型。同樣以 LLaMA-7b 為例：

python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b

通過(guò)命令行或配置文件，OpenCompass 還支持評(píng)測(cè) API 或自定義模型，以及更多樣化的評(píng)測(cè)策略。請(qǐng)閱讀快速開(kāi)始了解如何運(yùn)行一個(gè)評(píng)測(cè)任務(wù)。

更多教程請(qǐng)查看我們的文檔。

📖 數(shù)據(jù)集支持

語(yǔ)言	知識(shí)	推理	考試
字詞釋義 WiC SummEdits 成語(yǔ)習(xí)語(yǔ) CHID 語(yǔ)義相似度 AFQMC BUSTM 指代消解 CLUEWSC WSC WinoGrande 翻譯 Flores IWSLT2017 多語(yǔ)種問(wèn)答 TyDi-QA XCOPA 多語(yǔ)種總結(jié) XLSum	知識(shí)問(wèn)答 BoolQ CommonSenseQA NaturalQuestions TriviaQA	文本蘊(yùn)含 CMNLI OCNLI OCNLI_FC AX-b AX-g CB RTE ANLI 常識(shí)推理 StoryCloze COPA ReCoRD HellaSwag PIQA SIQA 數(shù)學(xué)推理 MATH GSM8K 定理應(yīng)用 TheoremQA StrategyQA SciBench 綜合推理 BBH	初中/高中/大學(xué)/職業(yè)考試 C-Eval AGIEval MMLU GAOKAO-Bench CMMLU ARC Xiezhi 醫(yī)學(xué)考試 CMB
理解	長(zhǎng)文本	安全	代碼
閱讀理解 C3 CMRC DRCD MultiRC RACE DROP OpenBookQA SQuAD2.0 內(nèi)容總結(jié) CSL LCSTS XSum SummScreen 內(nèi)容分析 EPRSTMT LAMBADA TNEWS	長(zhǎng)文本理解 LEval LongBench GovReports NarrativeQA Qasper	安全 CivilComments CrowsPairs CValues JigsawMultilingual TruthfulQA 健壯性 AdvGLUE	代碼 HumanEval HumanEvalX MBPP APPs DS1000

📖 模型支持

開(kāi)源模型	API 模型
InternLM LLaMA LLaMA3 Vicuna Alpaca Baichuan WizardLM ChatGLM2 ChatGLM3 TigerBot Qwen BlueLM Gemma ……	OpenAI Gemini Claude ZhipuAI(ChatGLM) Baichuan ByteDance(YunQue) Huawei(PanGu) 360 Baidu(ERNIEBot) MiniMax(ABAB-Chat) SenseTime(nova) Xunfei(Spark) ……

🔜 路線(xiàn)圖

?主觀(guān)評(píng)測(cè)
- ?發(fā)布主觀(guān)評(píng)測(cè)榜單
- ?發(fā)布主觀(guān)評(píng)測(cè)數(shù)據(jù)集
?長(zhǎng)文本
- ?支持廣泛的長(zhǎng)文本評(píng)測(cè)集
- ?發(fā)布長(zhǎng)文本評(píng)測(cè)榜單
?代碼能力
- ?發(fā)布代碼能力評(píng)測(cè)榜單
- ?提供非Python語(yǔ)言的評(píng)測(cè)服務(wù)
?智能體
- ?支持豐富的智能體方案
- ?提供智能體評(píng)測(cè)榜單
?魯棒性
- ?支持各類(lèi)攻擊方法

OpenCompass的案例應(yīng)用

持續(xù)更新中……

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频