开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費電子書等14項超值服

          開通VIP
          我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題,結(jié)果... | 內(nèi)附答案
          近日,我國“深度求索”公司發(fā)布的具備深度思考和推理能力的開源大模型DeepSeek-R1受到了全世界的關(guān)注。在DeepSeek-R1之前,美國OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都號稱具備了深度思考和推理能力。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測試中,表現(xiàn)的確是驚才絕艷。特別引起我們興趣的,是Google的專用模型AlphaGeometry在公認高難度的國際奧林匹克數(shù)學(xué)競賽中取得了28/42的成績,獲得銀牌。學(xué)生時代我們也接觸過奧數(shù),深知能在此類國際奧賽中獲銀牌的選手,無一不是從小就體現(xiàn)出相當(dāng)數(shù)學(xué)天賦,且一路努力訓(xùn)練的高手。能夠達到這個水平的AI,稱其為具備了強大的思考能力并不過分。自打那之后,我們就一直好奇,這些強大的AI,它們的物理水平又如何?是不是以后就不用招研究生和博士后了?

          1月17日,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽。我們命題組完成了這份試卷的出題工作。七道題除一道外,都不是從現(xiàn)成的題庫或考題中改編節(jié)選的,我們?nèi)齻€對這套試卷比較滿意,覺得它既不像傳統(tǒng)考試題一樣盯著個別知識點考,也不像高中競賽題一樣需要很多技巧和熟練度,而更像實際科研中碰到的具體技術(shù)問題。競賽前的某天,我們和幾個朋友一起吃飯,其中一位AI的重度用戶知道了我們出了這份題,就問有沒有測試過AI的表現(xiàn)?我們覺得這個建議很有意思,于是決定在競賽后,測試幾個有代表性的大模型

          所謂來得早不如來得巧。1月20日,當(dāng)我們剛結(jié)束競賽回到北京,正趕上DeepSeek-R1發(fā)布引爆了AI圈,它自然成了我們測試的首選模型。此外我們測試的模型還包括:OpenAI發(fā)布的GPT-o1,Anthropic發(fā)布的Claude-sonnet下面是我們測試的方式:
          1.整個測試由8段對話完成。
          2.第一段對話的問題是“開場白”:交代需要完成的任務(wù),問題的格式,提交答案的格式等。通過AI的回復(fù)人工確認其理解。
          3.依次發(fā)送全部7道題目的題干,在收到回復(fù)后發(fā)送下一道題,中間無人工反饋意見。
          4.每道題目的題干由文字描述和圖片描述兩部分組成(第三、五、七題無圖)。
          5.圖片描述是純文本方式,描述的文本全部生成自GPT-4o,經(jīng)人工校對。
          6.每個大模型所拿到的文字材料是完全相同的(見附件)。
          上述過程后,對于每個大模型我們獲得了7tex文本,對應(yīng)于7道問題的解答。以下是我們采取的閱卷方式:
          1.人工調(diào)整tex文本至可以用Overleaf工具編譯,收集編譯出的PDF文件作為答卷。
          2.4個模型的7道問題的解答分別發(fā)送給7位閱卷人組成的閱卷組。
          3.閱卷組與“天目杯”競賽的閱卷組完全相同,且每位閱卷人負責(zé)的題目也相同。舉例:閱卷人A負責(zé)所有人類和AI答卷中的第一題;閱卷人B負責(zé)所有人類和AI答卷中的第二題,等等。
          4.閱卷組匯總所有題目得分。
          結(jié)果如何呢?請看下表。

          結(jié)果點評:
          1.DeepSeek-R1表現(xiàn)最好。基礎(chǔ)題(前三題分數(shù)拿滿),第六題還得到了人類選手中未見到的滿分,第七題得分較低似乎是因為未能理解題干中“證明”的含義,僅僅重述了待證明的結(jié)論,無法得分。查看其思考過程,是存在可以給過程分的步驟的,但最后的答案中這些步驟都沒有體現(xiàn)。

          2.GPT-o1總分與DeepSeek相差無幾。在基礎(chǔ)題(二題、三題)中有計算錯誤導(dǎo)致的失分。相比于DeepSeek,o1的答卷更接近于人類的風(fēng)格,因此以證明題為主最后一題得分稍高。

          3.Claude-sonnet可謂“馬失前蹄”,在前兩題中連出昏招打了0分,但后續(xù)表現(xiàn)跟o1相當(dāng)接近,連扣分點都是類似的。

          4.如果將AI的成績與人類成績相比較,則DeepSeek-R1可以進入前三名(獲特優(yōu)獎),但與人類的最高分125分仍有較大差距;GPT-o1進入前五名(獲特優(yōu)獎),Claude-sonnet前十名(獲優(yōu)秀獎)。

          最后想聊幾句閱卷的主觀感想。首先是AI的思路是真的好,基本上沒有無法下手的題,甚至很多時候一下子就能找到正確的思路。但跟人類不同的是,它們在有正確的思路后,會在一些很簡單的錯誤里面打轉(zhuǎn)。比如通過看R1的第七題思考過程,就發(fā)現(xiàn)它一早就知道要用簡正坐標(biāo)來做,能想到這一步的考生幾乎100%求解出了正確的簡正坐標(biāo)(一個簡單的矩陣對角化而已),但是R1似乎是在反復(fù)的猜測和試錯,到最后也沒有得到簡正坐標(biāo)的表達式。還有就是所有的AI似乎都不理解一個“嚴(yán)密”的證明究竟意味著怎樣的要求,似乎認為能在形式上湊出答案,就算是證明了。AI如同人類,也會出現(xiàn)許多“偶然”錯誤。比如在正式的統(tǒng)一測試前,我們私下嘗試過多次,很多時候Claude-sonnet可以正確解出第一題的答案,但正式測試的那次它就偏偏做錯了。出于嚴(yán)謹,我們也許應(yīng)該對同一道題測試多次然后取平均,但實在是有點麻煩……

          除了上面AI的測試結(jié)果,這次我們還發(fā)布了本次試題的參考答案。我們當(dāng)然是故意比試題遲幾天發(fā)布答案的,想讓大家先自己挑戰(zhàn)一下。在每道題的解答后,我們還加入了一小段“編后”,有命題人對這道題的評價,以及一些引申的思考等。我們希望答案可以幫助不會做的同學(xué)學(xué)習(xí),也能引發(fā)會做的同學(xué)進一步的思考。

          附件中我們提供了:
          1.所有向大模型發(fā)問的輸入文本(txt),
          2.每個大模型給出的原始答案文本(txt)和人工整理出的答卷(PDF),
          3.命題組提供的標(biāo)準(zhǔn)答案。

          最后感謝“字節(jié)跳動”的AI“豆包”對本文的修改~

          春節(jié)快樂,學(xué)習(xí)進步,工作順利!
          附件:AI答卷
          附件:AI提問
          附件:參考答案

          冬令營組委會
          乙巳年正月初二
          編輯:雪影


          掃碼進入“科學(xué)與中國”小程序,可觀看以院士科普視頻為代表的優(yōu)秀科普視頻,第一時間獲取中國科學(xué)院公眾科學(xué)日、科學(xué)節(jié)等科普活動報名信息。


          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          最強AI大模型Claude 3,全面超越GPT
          阿里數(shù)賽首次向AI開放!知乎網(wǎng)友:給AI捏了把汗,該防止人類替考
          新火種AI|Claude 3.5一夜封王超越GPT-4o!留給OpenAI的時間真的不多了...
          六項能力位居第一:Anthropic推出Claude 3.5,力壓GPT-4o和Gemini 1.5 Pro
          最強大模型易主!模型性能超越GPT-4,Anthropic打破了OpenAI壓制鏈
          AI界的“拼多多”,DeepSeek
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點擊這里聯(lián)系客服!

          聯(lián)系客服