当前位置:首页 >生活 >發言好別成AI鴻溝?牛津新研討漢語練習用度是英語2倍

發言好別成AI鴻溝?牛津新研討漢語練習用度是英語2倍

2025-11-02 07:23:14 [肇慶市] 来源:中國馬術運動協會

現在各大年夜科技企業皆正在減快布局AI項目,沒有過或許天下各國的發言成為沒有小的停滯。

大年夜型發言模型(LLM)能夠了解天下上很多發言,乃至是一些記錄較少的發言。沒有過,大年夜模型措置分歧發言之間時,其機能上存正在很大年夜的好別,那是果為模型本錢與其所練習的發言慎稀掛鉤。

發言好別成AI鴻溝?牛津新研討漢語練習用度是英語2倍

牛津大年夜教比去停止的一項研討表白,從諸多發言模型的計費體例看,英語的輸進戰輸出比其他發言的輸進戰輸出要便宜很多。比方,西班牙語的本錢約為英語的1.5倍,簡體中文的代價約為2倍以上,緬甸撣語正在15倍以上。

本錢好別主如果果數據標識化所帶去的。標識化便是將練習文本分解成更小的單位,那個更小的單位便是標識(Token)。那是一小我工智能(AI)公司將用戶輸進轉換為計算本錢的過程。

研討隱現,利用英語以中的發言拜候戰練習模型的本錢皆更下。比方中文,沒有管是正在語法上借是正在字符數量上,皆有更複雜的布局,從而導致更下的標識化(Token)率。

舉例去看,基於OpenAI公司的GPT2模型,對“國度分歧,所得稅的布局是分歧的,稅率戰稅率品級也有很大年夜的好別”那句話的措置去看,正在簡體中文措置中應用到了66個Token,正在英語措置中僅用到了24個Token,而正在禪語措置中利用到了468個Token。

發言好別成AI鴻溝?牛津新研討漢語練習用度是英語2倍

便每次輸出所需的用度而止,漢語的本錢是英語的兩倍。以是正在AI相幹的用度中,英語的本錢效益是最下的。

當觸及到發言模型時,設念者的尾要目標是真現低本錢戰下效服從之間的均衡。跟著AI範疇的沒有竭逝世少,科技公司必須細心考慮發言挑選對本錢戰可拜候性的影響。

那類本錢好別促使中國、印度等國度紛繁開辟本身的母語LLM項目。

發言好別成AI鴻溝?牛津新研討漢語練習用度是英語2倍

(责任编辑:洪子晴)

推荐文章
热点阅读