作者:王曉明(中國科學院科技戰(zhàn)略咨詢研究院研究員)
當前,人工智能處在快速發(fā)展的關鍵時期,正在重塑經(jīng)濟社會發(fā)展模式。2024年中央經(jīng)濟工作會議指出,開展“人工智能+”行動,培育未來產(chǎn)業(yè)。數(shù)據(jù)作為人工智能發(fā)展的三大核心要素之一,是人工智能模型訓練的基礎要素,也是人工智能模型應用的核心資源,加快建設人工智能高質(zhì)量數(shù)據(jù)集,對于推動“人工智能+”場景落地具有重要意義。
高質(zhì)量數(shù)據(jù)集建設存在的問題
高質(zhì)量數(shù)據(jù)供給是推動新一代人工智能加快發(fā)展的關鍵要素。當前,面向新一代人工智能的數(shù)據(jù)供給仍有不足,數(shù)據(jù)處理專用技術有待進一步突破,數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)生態(tài)有待豐富,高質(zhì)量數(shù)據(jù)集的整體規(guī)劃和支持政策還有待完善。
首先,通用領域、垂直領域以及具身智能領域的高質(zhì)量數(shù)據(jù)供給仍有不足。一方面,中文公開數(shù)據(jù)在質(zhì)量和數(shù)量方面落后于英文數(shù)據(jù)。另一方面,我國公共數(shù)據(jù)開放利用程度有待提高,各地開放標準不統(tǒng)一,專門面向人工智能發(fā)展的高質(zhì)量行業(yè)數(shù)據(jù)集仍較匱乏。具身智能領域真實交互數(shù)據(jù)采集不足,主要原因在于智能機器人與環(huán)境的交互數(shù)據(jù)獲取困難且成本高昂,同時,企業(yè)采集數(shù)據(jù)缺乏統(tǒng)一的參照標準。
其次,高質(zhì)量數(shù)據(jù)的合成、處理和利用技術亟待提升。利用深度學習和強化學習生成高精確度、多樣化合成數(shù)據(jù)的技術在成熟度和應用范圍上急需突破。隨著社會自動化和智能化程度的不斷提高,對數(shù)據(jù)處理的要求也不斷提升,因此急需針對結構化、半結構化和非結構化數(shù)據(jù)的處理技術進行迭代優(yōu)化,進一步提高數(shù)據(jù)處理效率。
再次,數(shù)據(jù)主體和商業(yè)模式發(fā)展尚不成熟。我國缺乏類似美國Databricks和Snowflake“數(shù)據(jù)+人工智能”模式的高質(zhì)量數(shù)據(jù)匯聚和治理主體,具備大規(guī)模數(shù)據(jù)匯聚管理分析能力的公司數(shù)量不足。醫(yī)療、法律、保險、金融、工業(yè)、科研等多個領域的公共數(shù)據(jù)授權運營主體目前仍在培育中,數(shù)據(jù)集構建和運營利用的商業(yè)模式發(fā)展還不夠成熟。
最后,高質(zhì)量數(shù)據(jù)集的專項規(guī)劃和支持政策有待完善。我國已出臺一系列數(shù)據(jù)發(fā)展相關指引政策,但是面向新一代人工智能模型訓練和場景應用的高質(zhì)量數(shù)據(jù)集專項規(guī)劃和支持政策尚未出臺,其建設、運營、流通、利用等方面舉措有待進一步細化。在數(shù)據(jù)采集方面,各領域數(shù)據(jù)缺乏適用的標準規(guī)范;在數(shù)據(jù)使用方面,缺少面向大模型和具身智能模型訓練的數(shù)據(jù)共享和流通促進機制,一定程度上限制了模型能力的快速提升。
多措并舉建設高質(zhì)量數(shù)據(jù)集
針對當前存在的資源、技術、模式、制度等方面問題,結合新一代人工智能發(fā)展的需要,建議發(fā)揮政府和市場的協(xié)同作用,多措并舉推進高質(zhì)量數(shù)據(jù)集建設。
一是加快公共數(shù)據(jù)開放和企業(yè)數(shù)據(jù)流通,建設面向新一代人工智能的高質(zhì)量數(shù)據(jù)集。建議形成部門、行業(yè)、地區(qū)共同參與的協(xié)同機制,圍繞高質(zhì)量數(shù)據(jù)集建設,擴大數(shù)據(jù)供給范圍和規(guī)模,完善公共及行業(yè)數(shù)據(jù)標準,加速可信數(shù)據(jù)空間建設。面向醫(yī)療、教育、科研、法律、工業(yè)、農(nóng)業(yè)、物流、金融、能源、交通等重點領域建設大數(shù)據(jù)中心及大模型行業(yè)應用創(chuàng)新(工程)中心,打破信息孤島,構建完備數(shù)據(jù)生態(tài),構建高質(zhì)量數(shù)據(jù)集,提升垂直領域人工智能模型能力。著眼自動駕駛、具身智能等未來產(chǎn)業(yè)需求,開放相關公共數(shù)據(jù),制定行業(yè)數(shù)據(jù)標準,探索企業(yè)間數(shù)據(jù)流通機制,鼓勵企業(yè)和研究機構創(chuàng)建高質(zhì)量行業(yè)數(shù)據(jù)集。
二是圍繞建設行業(yè)高質(zhì)量數(shù)據(jù)集關鍵技術問題加大攻關力度。面向數(shù)據(jù)合成和處理,加快開發(fā)數(shù)據(jù)合成、數(shù)據(jù)治理的關鍵共性技術;面向數(shù)據(jù)流通匯聚,大力推廣隱私計算、區(qū)塊鏈等技術;面向“數(shù)據(jù)+人工智能”應用模式,著力開發(fā)數(shù)據(jù)管理技術,探索新型模型結構和訓練架構。鼓勵面向人工智能的數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務企業(yè)牽頭承擔國家重大項目,開展應用基礎研究和關鍵核心技術攻關。推動產(chǎn)學研合作和創(chuàng)新聯(lián)合體建設,打造數(shù)據(jù)技術、產(chǎn)品和服務深度融合的新型合作模式。面向重點場景,打造數(shù)據(jù)技術“測試場”,提供真實數(shù)據(jù)環(huán)境、模擬應用場景,建設中試基地,吸引企業(yè)、高校和科研機構參與數(shù)據(jù)技術的創(chuàng)新和驗證,加速新技術推廣和應用。
三是引導企業(yè)和商業(yè)模式創(chuàng)新,構建人工智能數(shù)據(jù)產(chǎn)業(yè)生態(tài)。大力培育人工智能數(shù)據(jù)資源、技術、服務、應用、安全、基礎設施等多領域企業(yè),重點建設面向人工智能行業(yè)的數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新平臺。鼓勵企業(yè)基于“數(shù)據(jù)+人工智能”探索多領域商業(yè)模式,支持企業(yè)與各方合作,打造基于高質(zhì)量數(shù)據(jù)集的產(chǎn)業(yè)創(chuàng)新鏈和生態(tài)系統(tǒng)。鼓勵企業(yè)探索大模型和具身智能應用場景,驅(qū)動數(shù)據(jù)產(chǎn)業(yè)發(fā)展。支持模型應用、模型開發(fā)、數(shù)據(jù)服務、數(shù)據(jù)產(chǎn)品等相關企業(yè)組建創(chuàng)新聯(lián)合體,開發(fā)高質(zhì)量數(shù)據(jù)集,發(fā)展“數(shù)據(jù)即服務”“知識即服務”“模型即服務”等新業(yè)態(tài)。
四是加大人工智能高質(zhì)量數(shù)據(jù)集建設政策支持力度。面向新一代人工智能技術開發(fā)和應用發(fā)展需求,完善數(shù)據(jù)資源構建體系,培育數(shù)據(jù)產(chǎn)業(yè),支持數(shù)據(jù)技術發(fā)展,系統(tǒng)推進高質(zhì)量數(shù)據(jù)集建設,強化行業(yè)應用。統(tǒng)籌中央和地方財政資金、產(chǎn)業(yè)引導基金和各類政策性投資,加大對高質(zhì)量數(shù)據(jù)集建設的投入。鼓勵金融機構創(chuàng)新產(chǎn)品和服務,增加對數(shù)據(jù)相關企業(yè)的融資支持。引導社會資本有序參與人工智能高質(zhì)量數(shù)據(jù)集的開發(fā)利用。