大模型“畫龍”,小數(shù)據(jù)“點(diǎn)睛”
企業(yè)加快智能化轉(zhuǎn)型
◎本報(bào)記者 翟冬冬
小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應(yīng)用有其前提,即需要在大的基礎(chǔ)模型(預(yù)訓(xùn)練模型)之上,通過小數(shù)據(jù)進(jìn)行模型的微調(diào),使模型更加精準(zhǔn)地服務(wù)具體應(yīng)用場(chǎng)景。從這個(gè)角度來講,小數(shù)據(jù)將在未來基礎(chǔ)模型完成下游任務(wù)時(shí),起到關(guān)鍵的作用。
王金橋
中國科學(xué)院自動(dòng)化研究所研究員
如今大數(shù)據(jù)已經(jīng)成為人工智能的“標(biāo)配”。在訓(xùn)練人工智能模型的過程中,如果想讓其變得更加聰明,大量的、多樣性的數(shù)據(jù)必不可少。但近日,著名人工智能學(xué)者吳恩達(dá)在展望人工智能下一個(gè)10年的發(fā)展方向時(shí),表達(dá)了不同的觀點(diǎn)。他認(rèn)為,小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)的應(yīng)用或是未來趨勢(shì)。
中國科學(xué)院自動(dòng)化研究所研究員王金橋表示,小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應(yīng)用有其前提,即需要在大的基礎(chǔ)模型(預(yù)訓(xùn)練模型)之上,通過小數(shù)據(jù)進(jìn)行模型的微調(diào),使模型更加精準(zhǔn)地服務(wù)具體應(yīng)用場(chǎng)景。從這個(gè)角度來講,小數(shù)據(jù)將在未來基礎(chǔ)模型完成下游任務(wù)時(shí),起到關(guān)鍵的作用。
多數(shù)應(yīng)用場(chǎng)景難以獲取高質(zhì)量大數(shù)據(jù)
算法(模型)、算力和數(shù)據(jù)可以說已經(jīng)成為推動(dòng)人工智能發(fā)展的三大要素,其中數(shù)據(jù)尤為重要。在眾多互聯(lián)消費(fèi)場(chǎng)景中,我們常常被精準(zhǔn)的人工智能推送“擊中”。通過對(duì)消費(fèi)者消費(fèi)習(xí)慣、購物偏好的分析,平臺(tái)系統(tǒng)可以對(duì)消費(fèi)者的潛在需求作出判斷并加以引導(dǎo),而這一切的基礎(chǔ),是基于大量的、豐富的數(shù)據(jù)樣本。利用大數(shù)據(jù),平臺(tái)構(gòu)建出了適用于該領(lǐng)域的專用模型,實(shí)現(xiàn)精準(zhǔn)推送。
這些體驗(yàn)或許是普通消費(fèi)者對(duì)于大數(shù)據(jù)和人工智能最直接的印象之一。吳恩達(dá)在采訪中也表示,在過去10年里,面向消費(fèi)者的企業(yè)由于擁有大量用戶群(有時(shí)甚至高達(dá)數(shù)十億),因此獲得了非常大的數(shù)據(jù)集使得人工智能可以開展深度學(xué)習(xí),并給企業(yè)帶來了不少經(jīng)濟(jì)效益。但他同時(shí)強(qiáng)調(diào),這種法則并不適用于其他行業(yè)。其原因在于,并不是所有場(chǎng)景都能產(chǎn)生豐富的大數(shù)據(jù)樣本。
實(shí)際上,“在生活中,百分之八九十場(chǎng)景的問題都屬于小樣本問題?!蓖踅饦虮硎?,很多應(yīng)用場(chǎng)景中,由于訓(xùn)練樣本難以獲取,因此只有極少量數(shù)據(jù),缺陷檢測(cè)就是其中的典型案例。缺陷檢測(cè),即采用機(jī)器視覺技術(shù)等,對(duì)某種特定缺陷進(jìn)行檢測(cè)和識(shí)別。這種檢測(cè)在航天航空、鐵路交通、智能汽車等眾多領(lǐng)域都有應(yīng)用。由于在實(shí)際的生產(chǎn)生活中,存在瑕疵的產(chǎn)品總是少數(shù),所以缺陷檢測(cè)的訓(xùn)練樣本數(shù)量很少。
而即使對(duì)于樣本豐富的場(chǎng)景,也存在訓(xùn)練數(shù)據(jù)標(biāo)注愈發(fā)困難的問題。王金橋介紹,目前人工智能所使用的訓(xùn)練數(shù)據(jù),還是以人工標(biāo)注為主,而在海量數(shù)據(jù)面前,人工標(biāo)注往往需要行業(yè)經(jīng)驗(yàn),一般人難以對(duì)標(biāo)注區(qū)域進(jìn)行識(shí)別。此外,針對(duì)每個(gè)應(yīng)用需求都需要人工智能專家設(shè)計(jì)算法模型,模型越多,開發(fā)成本也會(huì)持續(xù)增加。
吳恩達(dá)也表示,在消費(fèi)互聯(lián)網(wǎng)行業(yè)中,我們只需訓(xùn)練少數(shù)機(jī)器學(xué)習(xí)模型就能服務(wù)10億用戶。然而在制造業(yè)中,有1萬家制造商就要搭建1萬個(gè)定制模型。而且要做到這點(diǎn)往往需要大量的人工智能專家。
從目前的行業(yè)發(fā)展趨勢(shì)來看,基礎(chǔ)模型或許是解決上述問題的一個(gè)方向。
以基礎(chǔ)模型為“基座”用小數(shù)據(jù)微調(diào)
“近些年,行業(yè)開始重視研發(fā)基礎(chǔ)模型或者說是通用型模型來解決上述問題?!蓖踅饦蛘f,先用大量數(shù)據(jù)預(yù)訓(xùn)練一個(gè)模型。這些模型在預(yù)訓(xùn)練中,見多識(shí)廣是首要任務(wù)。訓(xùn)練中,模型會(huì)見識(shí)到該領(lǐng)域各式各樣的數(shù)據(jù),增長(zhǎng)見識(shí),以應(yīng)對(duì)今后出現(xiàn)的各種情況。之后再在下游任務(wù)中利用具體的場(chǎng)景數(shù)據(jù)進(jìn)行微調(diào)。
如自然語言處理(NLP)領(lǐng)域的大模型,如果要利用它完成如對(duì)話、問答等下游任務(wù),只需要使用這個(gè)下游任務(wù)中數(shù)量很小的數(shù)據(jù),在這個(gè)大模型之上進(jìn)行微調(diào),就能達(dá)到不錯(cuò)的效果。一些研究成果也表明,只需要原來建立專屬模型5%—10%的數(shù)據(jù)樣本用于大模型的數(shù)據(jù)微調(diào),就能得到和專屬模型一樣的精度。
“從大模型轉(zhuǎn)向小模型,實(shí)現(xiàn)一個(gè)模型做多個(gè)任務(wù),可以說是目前行業(yè)發(fā)展中的一個(gè)轉(zhuǎn)變?!蓖踅饦蛘f,這樣不僅降低了開發(fā)難度,還大大減少了開發(fā)成本。以前,每個(gè)算法都需要一個(gè)深度學(xué)習(xí)專家去設(shè)計(jì)和訓(xùn)練,現(xiàn)在只需要在大模型之下進(jìn)行微調(diào),模型的設(shè)計(jì)和架構(gòu)也變得相對(duì)簡(jiǎn)單。中小型企業(yè)只需要在大模型上,自己上傳數(shù)據(jù)就可以完成。
此外,利用這種方法,模型的誤報(bào)率也會(huì)減少?;A(chǔ)模型見過豐富多彩的數(shù)據(jù)和場(chǎng)景,在處理具體任務(wù)的時(shí)候就具備了海量知識(shí)儲(chǔ)備,有更充足的準(zhǔn)備去應(yīng)對(duì)具體的小場(chǎng)景應(yīng)用。
不過吳恩達(dá)在訪談中也表示,預(yù)訓(xùn)練只是要解決難題的一小部分,更大的難題是提供一個(gè)工具讓使用者能夠選擇正確的數(shù)據(jù)用于微調(diào),并用一致的方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。面對(duì)大數(shù)據(jù)集的應(yīng)用時(shí),開發(fā)者的通常反應(yīng)都是如果數(shù)據(jù)有噪音也沒關(guān)系,所有數(shù)據(jù)照單全收,算法會(huì)對(duì)其進(jìn)行平均。但是,如果研究人員能夠開發(fā)出用來標(biāo)記出數(shù)據(jù)不一致地方的工具,為使用者提供一種非常有針對(duì)性的方法來提高數(shù)據(jù)質(zhì)量,那這將是獲得高性能系統(tǒng)的更有效的方法。
多模態(tài)或是大模型未來發(fā)展方向
基礎(chǔ)模型作為生產(chǎn)眾多小模型的“基座”,性能尤為重要。其認(rèn)知能力越接近人類,在此之上產(chǎn)生的小模型性能也將越優(yōu)異。
在探索外部環(huán)境的時(shí)候,人類具備視覺、聽覺、觸覺等多種認(rèn)知手段,并通過語言對(duì)話等形式實(shí)現(xiàn)互動(dòng)交流。其中視覺得到的信息約占70%,聽覺、觸覺等獲得的信息約占30%。“同樣,要使得大模型的性能更加優(yōu)秀,更趨近人類的認(rèn)知能力,就涉及到訓(xùn)練中的數(shù)據(jù)融合問題?!蓖踅饦蛑赋?,我們熟知的語言生成模型GPT-3,能夠生成流暢自然的文本,并完成問答、翻譯、創(chuàng)作小說等一系列NLP任務(wù),甚至可以進(jìn)行簡(jiǎn)單的算術(shù)運(yùn)算。但其和外界交互的主要方式還是進(jìn)行文本交流,缺乏圖像、視頻等多模態(tài)融合。
每一種信息的來源或者形式,都可以稱為一種模態(tài)。如人有觸覺、聽覺、視覺、嗅覺;信息的媒介有語音、視頻、文字等。人的認(rèn)知模型可以說是一個(gè)多模態(tài)的集合。
要讓基礎(chǔ)模型的預(yù)訓(xùn)練更接近人類的認(rèn)知模型,也需要進(jìn)行多模態(tài)融合。即讓模型通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力,如圖像、視頻、音頻、語義之間的多模態(tài)學(xué)習(xí)。多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能路徑的探索。
“這一兩年,大模型的數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng),且有從單一模態(tài)模型轉(zhuǎn)向多模態(tài)模型的趨勢(shì)?!蓖踅饦蛘f,具備了多模態(tài)能力的基礎(chǔ)模型,在具體應(yīng)用場(chǎng)景中健壯性更好,在異常和危險(xiǎn)情況下系統(tǒng)的生存能力更強(qiáng),今后多模態(tài)基礎(chǔ)模型或?qū)⒊蔀槲磥砘A(chǔ)模型發(fā)展的一個(gè)重要方向。
關(guān)鍵詞: 人工智能
南海區(qū)西樵鎮(zhèn)攜手東方新蒙共建青年成才園 佛山新聞網(wǎng)訊珠江時(shí)報(bào)記者陳肖玲通訊員周旺弟報(bào)道:10月26日下午,西樵鎮(zhèn)政府與東方新蒙(北京)教育科技有限公司簽訂青年成才園項(xiàng)目合作協(xié)議
【天天熱聞】禪城區(qū)召開2022年選調(diào)生基層鍛煉工作會(huì)議 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)見習(xí)記者賀勇報(bào)道:10月26日上午,禪城區(qū)召開2022年選調(diào)生基層鍛煉工作會(huì)議,貫徹落實(shí)區(qū)委鍛造“禪城鐵軍”要求和...
世界快看:第十三屆佛山車展擬下周開幕 實(shí)惠福利助力佛山車市年末再?zèng)_刺 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)記者梁煒健報(bào)道:中國機(jī)械國際合作股份有限公司、佛山傳媒集團(tuán)和廣州市合強(qiáng)展覽有限公司聯(lián)合主辦,中國機(jī)械國際合...
全球新消息丨遏制違法用地,禪城出臺(tái)“全鏈條”監(jiān)管措施 日前,禪城區(qū)人民政府辦公室印發(fā)了《關(guān)于實(shí)施“全鏈條”監(jiān)管遏制違法用地的通知》(以下簡(jiǎn)稱《通知》),堅(jiān)持疏堵結(jié)合、多管齊下,著力...
世界聚焦:夯實(shí)電力支撐 護(hù)航佛山產(chǎn)業(yè)持續(xù)壯大——供電助力佛山建設(shè)制造業(yè)創(chuàng)新高... 黨的二十大報(bào)告提出,建設(shè)現(xiàn)代化產(chǎn)業(yè)體系。堅(jiān)持把發(fā)展經(jīng)濟(jì)的著力點(diǎn)放在實(shí)體經(jīng)濟(jì)上,推進(jìn)新型工業(yè)化,加快建設(shè)制造強(qiáng)國、質(zhì)量強(qiáng)國、航天...
三水啟動(dòng)住宅小區(qū)文明提升行動(dòng) 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)記者邵巧玲報(bào)道:10月26日,三水區(qū)召開物業(yè)管理小區(qū)文明提升行動(dòng)工作會(huì)議,正式啟動(dòng)住宅小區(qū)文明提升行動(dòng),規(guī)范轄區(qū)物業(yè)
焦點(diǎn)關(guān)注:高明區(qū)西安河流域水系綜合整治項(xiàng)目(西片區(qū))進(jìn)展順利 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)記者李祥銳攝影報(bào)道:在高明區(qū)荷城街道慶洲村旁,一段剛剛完成清淤作業(yè)的灌溉渠格外搶眼。渠道中間兩行仿木樁護(hù)腳...
【環(huán)球播資訊】高明今年新建或改建25個(gè)社區(qū)體育公園 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)記者馮慧雯攝影報(bào)道:10月25日,在高明區(qū)街心公園,現(xiàn)年65歲的荷城街道竹園社區(qū)居民李向陽鍛煉完身體后,對(duì)嶄新的健身器
當(dāng)前最新:“利劍”出鞘,南海加大對(duì)涉水企業(yè)執(zhí)法力度! 佛山新聞網(wǎng)訊珠江時(shí)報(bào)記者鄭慧苗通訊員肖長(zhǎng)安報(bào)道:南海以水聞名,以水興城,良好的水環(huán)境,是南海高質(zhì)量發(fā)展的基礎(chǔ),更是人民群眾幸福...
緊急提醒!10月28-30日順德全區(qū)所有核酸檢測(cè)點(diǎn)均提供黃碼人員核酸檢測(cè)服務(wù)! 近期有些市民朋友可能會(huì)發(fā)現(xiàn)健康碼“紅了”“黃了”生活、工作都受到了影響不要擔(dān)心!重要提醒為了更好服務(wù)轄區(qū)內(nèi)被賦黃碼的居民,充分...
南海區(qū)西樵鎮(zhèn)攜手東方新蒙共建青年成才園 佛山新聞網(wǎng)訊珠江時(shí)報(bào)記者陳肖玲通...
【天天熱聞】禪城區(qū)召開2022年選調(diào)生基層鍛煉工作會(huì)議 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)見習(xí)記者賀勇...
世界快看:第十三屆佛山車展擬下周開幕 實(shí)惠福利助力佛山車市年末再?zèng)_刺 佛山新聞網(wǎng)訊佛山日?qǐng)?bào)記者梁煒健報(bào)...
全球新消息丨遏制違法用地,禪城出臺(tái)“全鏈條”監(jiān)管措施 日前,禪城區(qū)人民政府辦公室印發(fā)了...