第二屆中國國際供應(yīng)鏈促進博覽會11月26日在北京正式開幕。鏈博會吉祥物“鏈氪”來到數(shù)字科技展區(qū),遇到了一位神秘人物↓↓↓
總臺央視記者 張道峰:數(shù)字詩人李白是由人工智能大模型生成的,也就是我們常說的生成式人工智能,而做出這一大模型的是一家成立還不到一年的人工智能創(chuàng)新中心。
廉士國是創(chuàng)新中心首席人工智能科學(xué)家,他給我們現(xiàn)場拆解了人工智能大模型的運作過程。
生成一個數(shù)字詩人李白要分三步:先由文字生成圖片,圖片生成視頻,文字再生成語音跟視頻進行融合。不過,看似簡單的三步,做起來卻不容易。
中國聯(lián)通人工智能創(chuàng)新中心首席AI科學(xué)家兼技術(shù)總師 廉士國:首先要訓(xùn)練一個語言模型,它大概需要40TB的數(shù)據(jù),這個數(shù)據(jù)量大概相當(dāng)于400萬本電子書的數(shù)據(jù)量。
有了語言模型的基礎(chǔ),才能繼續(xù)訓(xùn)練文生圖、文生視頻等多模態(tài)大模型,背后還需要大量“數(shù)據(jù)對”,也就是數(shù)據(jù)之間的聯(lián)系,比如文字和圖片對應(yīng)的數(shù)據(jù),圖片和視頻對應(yīng)的數(shù)據(jù)等。
中國聯(lián)通人工智能創(chuàng)新中心首席AI科學(xué)家兼技術(shù)總師 廉士國:大概需要10億對文字圖像對,從圖像再到視頻,大概在百億對的級別。
不過,有了海量數(shù)據(jù)才是第一關(guān),然后是“數(shù)據(jù)標(biāo)注”,就是要把數(shù)據(jù)轉(zhuǎn)化為機器學(xué)習(xí)算法能理解的形式。
總臺央視記者 張道峰:想什么就能設(shè)計出什么,看似簡單的過程,背后其實是一條全新而龐大的人工智能產(chǎn)業(yè)鏈在支撐。數(shù)字詩人李白能夠作詩,算法、數(shù)據(jù)等等這條鏈的每一個環(huán)節(jié)都在發(fā)揮作用。
算法、數(shù)據(jù)、算力的高效協(xié)同,構(gòu)成了生成式人工智能快速發(fā)展的重要鏈條。現(xiàn)在,大模型技術(shù)賦能千行百業(yè),像“李白作詩”這樣的“文物活化”技術(shù)正在走進我們的生活。
(總臺央視記者 王琰 朱繼華 朱虹 張道峰 邵晨)