LLMs之benchmark之OpenCompass:OpenCompass的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略
2023年7月發(fā)布,OpenCompass 是面向大模型評(píng)測(cè)的一站式平臺(tái)。其主要特點(diǎn)如下:
開(kāi)源可復(fù)現(xiàn):提供公平、公開(kāi)、可復(fù)現(xiàn)的大模型評(píng)測(cè)方案
全面的能力維度:五大維度設(shè)計(jì),提供 70+ 個(gè)數(shù)據(jù)集約 40 萬(wàn)題的的模型評(píng)測(cè)方案,全面評(píng)估模型能力
豐富的模型支持:已支持 20+ HuggingFace 及 API 模型
分布式高效評(píng)測(cè):一行命令實(shí)現(xiàn)任務(wù)分割和分布式評(píng)測(cè),數(shù)小時(shí)即可完成千億模型全量評(píng)測(cè)
多樣化評(píng)測(cè)范式:支持零樣本、小樣本及思維鏈評(píng)測(cè),結(jié)合標(biāo)準(zhǔn)型或?qū)υ?huà)型提示詞模板,輕松激發(fā)各種模型最大性能
靈活化拓展:想增加新模型或數(shù)據(jù)集?想要自定義更高級(jí)的任務(wù)分割策略,甚至接入新的集群管理系統(tǒng)?OpenCompass 的一切均可輕松擴(kuò)展!
Github地址:GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
將陸續(xù)提供開(kāi)源模型和 API 模型的具體性能榜單,請(qǐng)見(jiàn)?OpenCompass Leaderboard?。
我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評(píng)測(cè)體系,它主要由三大核心模塊構(gòu)建而成:CompassKit、CompassHub以及CompassRank。
CompassRank?系統(tǒng)進(jìn)行了重大革新與提升,現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系,不僅囊括了開(kāi)源基準(zhǔn)測(cè)試項(xiàng)目,還包含了私有基準(zhǔn)測(cè)試。此番升級(jí)極大地拓寬了對(duì)行業(yè)內(nèi)各類(lèi)模型進(jìn)行全面而深入測(cè)評(píng)的可能性。
CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測(cè)試資源導(dǎo)航平臺(tái),其設(shè)計(jì)初衷旨在簡(jiǎn)化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測(cè)試庫(kù)中進(jìn)行搜索與利用的過(guò)程。為了讓更多獨(dú)具特色的基準(zhǔn)測(cè)試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用,我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo),通過(guò)訪(fǎng)問(wèn)這里,即可啟動(dòng)提交流程。
CompassKit?是一系列專(zhuān)為大型語(yǔ)言模型和大型視覺(jué)-語(yǔ)言模型打造的強(qiáng)大評(píng)估工具合集,它所提供的全面評(píng)測(cè)工具集能夠有效地對(duì)這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測(cè)量和科學(xué)評(píng)估。在此,我們誠(chéng)摯邀請(qǐng)您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過(guò)程中積極嘗試運(yùn)用我們的工具包,以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。
下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各個(gè)API模型,請(qǐng) `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴(lài)
# 下載數(shù)據(jù)集到 data/ 處
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行,詳細(xì)步驟請(qǐng)參考安裝指南。
確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后,可以通過(guò)以下命令評(píng)測(cè) LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能:
python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl
OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置,你可以通過(guò)?工具?列出所有可用的模型和數(shù)據(jù)集配置。
# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相關(guān)的配置
python tools/list_configs.py llama mmlu
你也可以通過(guò)命令行去評(píng)測(cè)其它 HuggingFace 模型。同樣以 LLaMA-7b 為例:
python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b
通過(guò)命令行或配置文件,OpenCompass 還支持評(píng)測(cè) API 或自定義模型,以及更多樣化的評(píng)測(cè)策略。請(qǐng)閱讀快速開(kāi)始了解如何運(yùn)行一個(gè)評(píng)測(cè)任務(wù)。
更多教程請(qǐng)查看我們的文檔。
語(yǔ)言 | 知識(shí) | 推理 | 考試 |
字詞釋義
| 知識(shí)問(wèn)答
| 文本蘊(yùn)含
| 初中/高中/大學(xué)/職業(yè)考試
|
理解 | 長(zhǎng)文本 | 安全 | 代碼 |
閱讀理解
| 長(zhǎng)文本理解
| 安全
| 代碼
|
開(kāi)源模型 | API 模型 |
|
|
持續(xù)更新中……
聯(lián)系客服