數據治理(Data Governance)是圍繞數據全生命周期,通過管理優(yōu)化和技術工具,確保數據的可用性、一致性、安全性、合規(guī)性的管理體系。數據治理涉及數據的整個生命周期,包含數據的產生、采集、清洗、存儲、處理、應用、共享及銷毀。
當前,人工智能正迅速滲透到經濟社會的各個領域。2025 年,中央經濟工作會議將“人工智能 +”列為重點任務,旨在用人工智能技術改造提升傳統(tǒng)產業(yè)、發(fā)展新興產業(yè)、培育未來產業(yè);全國工業(yè)和信息化工作會議也規(guī)劃了“人工智能 + 制造”行動,強調大模型研發(fā)和場景應用。近期,中國大模型憑借其高性能和高能效比,引發(fā)了全球關注。DeepSeekV3/R1 通過混合專家模型(MOE)、多頭潛在注意力機制(MLA)、FP8 混合精度訓練等前沿技術,大幅提升了模型能力。其高算力效能、開源特性和本地化部署為企業(yè)提供了低成本、高隱私保障的 AI 解決方案,正在快速推動制造業(yè)的數字化和智能化轉型。
算力、算法、數據是 AI 發(fā)展的三大核心要素。我國數據潛力雖大,但數據治理水平亟待提升。《全國數據資源調查報告(2023 年)》顯示,全國數據產存轉化率僅為 2.9%,未使用數據占比高達 38.9%。此外,高質量中文語料匱乏,Hugging Face 數據集中中文占比僅為 3.2%。相比之下,美國早在 2009 年就啟動了 Data.gov平臺,匯集了超過 30 萬種數據集,數據體量和質量全球領先。
因此,加強數據治理刻不容緩。國家層面,強化數據治理有助于彌補算力短板,提升 AI 倫理和安全保障;企業(yè)層面,數據治理能更好地賦能生產經營,實現(xiàn)智能化轉型。高水平的數據治理是推動人工智能賦能實體經濟、搶占未來科技和產業(yè)發(fā)展制高點的關鍵。
一、人工智能時代制造業(yè)數據的新特征
(一)來源廣泛化
傳統(tǒng)工業(yè)數據主要來自生產設備運行參數和產品質量檢測。隨著傳感技術和物聯(lián)網的廣泛應用,智能傳感器、工業(yè)機器人、智能機床等設備在生產線中大量部署,數據種類更加豐富。供應鏈上下游的數據流通也推動數據來源和規(guī)模的爆發(fā)式增長。例如,智能工廠的傳感器可實時監(jiān)測溫度、振動等數據;工業(yè)機器人不僅能夠傳輸傳統(tǒng)加工參數,還能生成路徑規(guī)劃和決策評估數據;產品通過內置傳感器將使用數據回傳至生產企業(yè)。
(二)產生實時化
人工智能技術使數據采集和控制更加精細,數據生成實時性顯著增強。工業(yè)智能機器人、智能裝備等設備的普及,使數據采集效率大幅提升,毫秒級甚至微秒級的數據采集成為常態(tài)。例如,自動化生產線需實時監(jiān)控設備運行數據以確保穩(wěn)定性,寶鋼與華為合作的熱軋自然寬展預測模型已實現(xiàn)毫秒級預測控制。
(三)多模態(tài)融合
人工智能重構了工業(yè)制造形態(tài),推動全流程、全價值鏈的互聯(lián)互通。工業(yè)數據不再局限于結構化數據,圖像、視頻、音頻等多模態(tài)數據大量涌現(xiàn)并深度融合。例如,科大訊飛的“工業(yè)六感”傳感器模擬工人的“視聽嗅味觸思”感知能力,采集并分析多模態(tài)數據,為智能控制和決策提供支持。
(四)存儲新要求
人工智能應用產生海量數據,對存儲容量和模式提出了更高要求,促使分布式存儲技術成為主流,且需滿足高性能、高并發(fā)、高可靠和高可擴展性需求。例如,新能源汽車、化工和鋼鐵企業(yè)采用分布式存儲技術,確保數據高效訪問和流轉。
(五)安全性要求高
工業(yè)數據涉及企業(yè)核心競爭力,需要嚴密保護。人工智能時代,數據投毒、模型越獄等攻擊手段可能影響決策和裝備運轉,甚至引發(fā)安全事故。例如,?;沸袠I(yè)的模型決策失誤、越獄攻擊等問題可能導致泄漏甚至爆燃爆炸事故,航空航天企業(yè)則通過多重加密和訪問控制確保數據安全。
二、工業(yè)數據行業(yè)管理現(xiàn)狀
近年來,我國工業(yè)數據行業(yè)管理工作以統(tǒng)籌發(fā)展和安全為核心,從政策法規(guī)、標準建設、企業(yè)管理等方面綜合施策,推動數據高質量發(fā)展與高水平安全的良性互動。
(一)政策法規(guī)逐步完善
《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等法律法規(guī),為工業(yè)數據安全提供了基本法律框架。2022 年,《中共中央 國務院關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》(“數據二十條”)出臺,奠定了數據要素市場的基礎制度體系。同年,工業(yè)和信息化部發(fā)布《工業(yè)和信息化領域數據安全管理辦法(試行)》,細化國家工業(yè)數據安全管理制度。2023 年,財政部印發(fā)《企業(yè)數據資源相關會計處理暫行規(guī)定》,為企業(yè)數據資源的會計處理提供明確指導。2024 年,國家數據局等部門聯(lián)合發(fā)布《關于促進企業(yè)數據資源開發(fā)利用的意見》,提出提升數據治理能力的要求;工業(yè)和信息化部發(fā)布《工業(yè)領域數據安全能力提升實施方案(2024—2026 年)》,體系化推動工業(yè)數據安全工作向縱深發(fā)展。
(二)標準建設穩(wěn)步推進
工業(yè)和信息化部與國家標準化管理委員會聯(lián)合發(fā)布《工業(yè)領域數據安全標準體系建設指南(2023 版)》,提出到 2026 年形成完備的數據安全標準體系 。目前已發(fā)布工業(yè)領域重要數據識別、安全防護等亟需的行業(yè)標準,并編制了工業(yè)數據資源目錄和圖譜。全國信息化和工業(yè)化融合管理標準化技術委員會(SAC/TC573)歸口了 5 項工業(yè)軟件行業(yè)標準,推動工業(yè)軟件底層數據的打通和兼容。此外,行業(yè)數據管理能力成熟度評估工作也在逐步展開。
(三)企業(yè)數據管理水平逐步提升
部分企業(yè)重視數據安全管理,設立專門的數據安全管理部門或崗位,明確責任和權限,實施數據分類分級管理及相應的安全策略。工業(yè)和信息化部建立了工業(yè)領域重要數據和核心數據識別報備機制,基本摸清了重要工業(yè)行業(yè)數據底數,并構建了數據安全風險監(jiān)測預警體系,持續(xù)提升行業(yè)數據安全風險防范和應對能力。通過政策引導和標準規(guī)范,一些頭部企業(yè)數據安全管理逐步走向系統(tǒng)化、專業(yè)化。
雖然我國工業(yè)數據行業(yè)管理在政策法規(guī)、標準建設、企業(yè)能力等方面取得了一定進展,但仍面臨政策落地難、標準不完善、企業(yè)能力不足、數據共享與隱私矛盾、技術創(chuàng)新與安全平衡難題以及行業(yè)協(xié)同不足等問題。未來,需進一步加強政策執(zhí)行力度、完善標準體系、提升企業(yè)數據管理能力、探索數據共享與隱私保護的平衡機制,并推動行業(yè)協(xié)同與生態(tài)建設,以實現(xiàn)工業(yè)數據的高質量發(fā)展與高水平安全。
三、人工智能時代工業(yè)數據治理挑戰(zhàn)
(一)數據治理難
工業(yè)數據治理面臨兩大難題。一是獲取難,數據高度分散于企業(yè)內部,“數據孤島”現(xiàn)象嚴重。企業(yè) IT 資產種類繁多、來源多樣、協(xié)議標準不統(tǒng)一,導致數據異構性問題突出,難以實現(xiàn)統(tǒng)一交換與共享。二是質量參差不齊,工業(yè)生產環(huán)境復雜多變,數據噪聲和異常值較多,設備故障、傳感器失效等問題導致數據缺失和不完整現(xiàn)象普遍存在。例如,汽車制造企業(yè)中,不同供應商提供的數據格式和標準各異,數據整合難度大,有效的數據清洗、標注和整合成為行業(yè)模型建設面臨的主要挑戰(zhàn)。
(二)數據確權難
工業(yè)數據確權問題復雜,既有一般數據確權的共性難點,也有工業(yè)領域的特殊性。數據的無形性、易復制性和流動性使其在傳輸、存儲和使用過程中容易被非法復制、篡改或濫用,導致數據邊界模糊、產權歸屬不清。此外,工業(yè)數據的生成、處理和使用涉及多個主體,各方在數據生產、流通和價值實現(xiàn)中的利益訴求不同,進一步增加了權利主體識別和界定的難度。數據確權技術尚未成熟,企業(yè)投入意愿不足,使得實際操作中數據確權更加困難。
(三)數據加工成本高
工業(yè)數據的專業(yè)性強,尤其在石油、化工、汽車、飛機等細分行業(yè),數據標注難度大,專業(yè)標注能力供給不足。為滿足大模型訓練需求,企業(yè)需頻繁組織行業(yè)專家進行數據標注,每次標注工作往往需要 20~30 位專家參與,成本高且效率低。盡管國內外人工智能企業(yè)正探索通過自動化工具與人工審核結合的方式降低標注成本,但整體成本壓力依然較大。
(四)數據安全風險突出
(五)數據人才短缺
我國數據人才培養(yǎng)體系尚處于起步階段,缺乏統(tǒng)一的培訓、認證和考核評價標準,人才培養(yǎng)速度遠落后于市場需求。據人社部測算,我國人工智能人才缺口超過 500 萬;英國德勤發(fā)布的報告指出,我國數字人才總體缺口在2500 萬至 3000 萬。尤其在工業(yè)領域,既懂工業(yè)知識又具備數據分析和人工智能技術的復合型人才極為緊缺,嚴重制約工業(yè)數據治理和應用的發(fā)展。
(一)強化數據標準,推動專業(yè)化工業(yè)數據集建設
一是加快工業(yè)數據標準規(guī)范建設,圍繞工業(yè)重點領域、典型場景和關鍵環(huán)節(jié),制定數據資源管理、安全保障、基礎設施建設和技術產品等相關標準,確保標準貼合高質量發(fā)展需求。堅持“急用先行”原則,強化標準推廣應用,推動行業(yè)數據規(guī)范化管理。二是建設專業(yè)化工業(yè)數據集,整合工業(yè)領域專業(yè)知識庫、互聯(lián)網資源、書籍及合成數據等多方來源,系統(tǒng)化整理、存儲和關聯(lián)專家經驗、操作規(guī)程等隱性知識,構建高質量工業(yè)數據集,支撐工業(yè)大模型的預訓練和微調,推動數據匯聚、優(yōu)化與應用。
(二)以企業(yè)數據資產化為核心,推動數據價值實現(xiàn)
數據價值實現(xiàn)需要經歷資源化、資產化和資本化三個階段,其中資產化是關鍵。通過數據入表,推動企業(yè)數據價值實現(xiàn),具體步驟可參考如下:一是制定數據資產管理戰(zhàn)略;二是明確數據資產定義和范圍;三是建立數據治理框架;四是選擇合適技術工具;五是優(yōu)化數據管理流程;六是建立數據資產目錄;七是推動數據資產價值實現(xiàn);八是開展培訓與文化建設;九是實施監(jiān)控與持續(xù)改進;十是確保合規(guī)與審計。
(三)引導企業(yè)建立數據質量與安全管理體系
一是建立數據質量管理體系,推動企業(yè)構建數據質量驅動的治理機制,開展數據質量評估。支持化工、新材料等重點行業(yè)龍頭企業(yè)貫通產業(yè)鏈,共建高質量數據集。深化仿真合成數據應用,解決數據稀缺和不平衡問題。二是建立數據安全保障體系,強化企業(yè)數據安全主體責任,以重要數據保護為核心,加強監(jiān)測預警技術建設,針對數據流轉的關鍵環(huán)節(jié)、人員和場景,實施有效安全措施,確保數據全生命周期安全。
(四)建設數據可信空間,推動數據共享流通
一是構建基于區(qū)塊鏈的可信流通體系,探索可信工業(yè)數據空間建設,提升數據流通效率與安全性。發(fā)展高性能智能合約、多鏈組網架構、異構跨鏈交互等關鍵技術,推動區(qū)塊鏈數據確權技術應用。二是建立數據模型分享機制,明確數據模型分享要求和激勵措施,激發(fā)數據開放動力,釋放數據模型應用價值,促進數據共享生態(tài)建設。
(五)強化國家產業(yè)安全,建立三大安全保障機制
一是建立工業(yè)模型(軟件)安全保障機制,加強重要工業(yè)模型(軟件)清單管理,開展安全性測試,提升供應鏈和生產系統(tǒng)安全穩(wěn)定水平。二是打造工業(yè)數據安全保障機制,完善數據安全管理制度,制定重點行業(yè)數據識別、防護和出境等政策指引,持續(xù)開展“數安護航”“數安鑄盾”專項行動,提升風險防范和應急處置能力。三是健全工業(yè)網絡安全保障機制,實施工業(yè)互聯(lián)網安全分類分級管理,強化工業(yè)控制系統(tǒng)網絡安全防護能力評估,開展“鑄網”實網演練,構建與新型工業(yè)化相適應的網絡安全保障體系。
(六)加強數據復合型人才培養(yǎng)
一是在政府層面建設數字戰(zhàn)略科學家隊伍,培育數字領軍人才,壯大數字技術工程師隊伍,提升產業(yè)工人數字素養(yǎng)。二是在企業(yè)層面提升管理者數據洞察力和決策力,從業(yè)務、數據、AI 三個維度綜合提升員工能力。三是在高校層面加強數字技術通識教育,推動數字技術專業(yè)學生深入產業(yè),以解決實際問題為導向,培養(yǎng)數據復合型人才,為產業(yè)發(fā)展儲備智力資源。
五、總結
高水平數據治理是“人工智能 + 制造”行動落實的關鍵,強化數據治理不僅有利推動人工智能更好地融入實體經濟,同時對彌補算力短板,提升 AI 倫理和安全保障也有著重要意義。當前,人工智能時代的工業(yè)數據面臨新特征和治理挑戰(zhàn),需引起高度重視,并通過綜合施策加以解決。在此背景下,可通過強化數據標準、推動數據資產化、建立質量與安全管理體系、建設可信數據空間、完善安全保障機制以及加強人才培養(yǎng)等相關措施,推動制造業(yè)數據治理邁向更高水平,為產業(yè)數字化智能化轉型提供堅實基礎。
作者:王江平,第十四屆全國政協(xié)委員、工業(yè)和信息化部原副部長,研究員級高級工程師。
來源:數字化轉型期刊
違法和不良信息舉報投訴電話:0377-62377728 舉報郵箱:fbypt@ex12580.com