前面有提到說借助大語言模型將Fluent的用戶文檔和理論文檔給機(jī)翻了一遍(見Fluent理論文檔中文版V1及Fluent UserGuide中文版)。后臺(tái)有道友問使用了哪些大模型。基于好東西不能藏私的指導(dǎo)思想,這里就來逐個(gè)介紹一下。
第一步工作是將文檔轉(zhuǎn)化為本地markdown格式。這里有兩種方式:
Doc2x
(官網(wǎng)地址:https://doc2x.noedgeai.com/),不過這貨現(xiàn)在收費(fèi)了,1000頁文檔需要11塊。公式識(shí)別效果還不錯(cuò),不過對(duì)于文本格式(如加粗、斜體等)的識(shí)別效果不佳。非常適合于大量公式需要處理的文檔。如果不想花錢,開源的話也可以選擇使用Marker(地址:https://github.com/VikParuchuri/marker)、MinerU(地址:https://github.com/opendatalab/MinerU)或pymupdf4llm(官網(wǎng)地址:https://pypi.org/project/pymupdf4llm/)等。不過開源程序在應(yīng)付復(fù)雜文檔時(shí)可能會(huì)效果不佳。現(xiàn)階段我使用的是大語言模型進(jìn)行翻譯。主要是考慮專業(yè)術(shù)語翻譯和后期的文本潤色。目前大語言模型對(duì)專業(yè)術(shù)語的識(shí)別效果還是挺不錯(cuò)的,而且可以讀取整段文本進(jìn)行翻譯,這與傳統(tǒng)的逐句翻譯模式不同。
目前主要使用的是國產(chǎn)大模型qwen2.5-72B
與deepseek
。其中qwen2.5-72B主要用于翻譯,而deepseek則主要用于潤色,總體上來看效果還是挺不錯(cuò)的。使用過程中個(gè)人感覺就翻譯效果來說千問商業(yè)大模型(包括turbo、pro和max版)實(shí)際效果遠(yuǎn)不如其開源的72B版本,而deepseek的中文表達(dá)能力個(gè)人覺得相當(dāng)好,很符合本人的語言表達(dá)習(xí)慣。
qwen2.5-72B與deepseek均使用的是硅基流動(dòng)(地址:https://siliconflow.cn/zh-cn/)提供的api。
為了方便,在使用過程中還用到了一個(gè)名為Cherry Studio
(地址:https://cherry-ai.com/)的前端工具,此工具支持定義智能體,因此只需要將智能體定義后,后續(xù)就能夠?qū)⒋g的markdown文件扔進(jìn)去自行翻譯和潤色了。
這個(gè)目前沒有那么好的工具,只能靠人工了。
(完)
聯(lián)系客服