到2027年數據標注產業(yè)年均增幅將超過20%
國家發(fā)展改革委等四部門近日聯(lián)合發(fā)布《關于促進數據標注產業(yè)高質量發(fā)展的實施意見》(以下簡稱《意見》)?!兑庖姟诽岢?,到2027年,數據標注產業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產業(yè)規(guī)模大幅躍升,年均復合增長率超過20%。
數據標注產業(yè)是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業(yè)。培育壯大數據標注產業(yè)對于提升數據供給質量、推動人工智能創(chuàng)新發(fā)展具有重要支撐作用。
為促進數據標注產業(yè)高質量發(fā)展,《實施意見》圍繞深化需求牽引、增強創(chuàng)新驅動、繁榮產業(yè)生態(tài)、優(yōu)化產業(yè)支撐等四方面提出13條具體政策舉措。
比如,在深挖企業(yè)需求方面,《實施意見》提出,實施“國有企業(yè)數據效能提升行動”,加大企業(yè)數據開發(fā)利用,釋放企業(yè)數據標注需求。加強交通、醫(yī)療、金融、科學、制造和農業(yè)等重點行業(yè)領域數據標注,建設行業(yè)高質量數據集,支撐人工智能在行業(yè)領域的應用賦能。圍繞醫(yī)療健康、人力資源、數字貿易、自動駕駛和低空經濟等場景,以業(yè)務創(chuàng)新拉動數據標注需求。
在開展關鍵技術攻關方面,《實施意見》要求,依托國家重點研發(fā)計劃、國家科技重大專項等,加強跨領域跨模態(tài)語義對齊、4D標注、大模型標注等數據標注領域的關鍵技術攻關應用。支持多模態(tài)標注、標注審查、質量評估、基于思維鏈的專家標注等智能化工具研發(fā)。支持建設集數據、模型、工具、場景為一體的數據標注創(chuàng)新平臺,推動數據標注技術融合創(chuàng)新。
“數據標注的核心目的是提取原始數據中的關鍵信息,為訓練人工智能大模型提供支持。”北京市社會科學院管理研究所副研究員王鵬認為,隨著人工智能技術的迅猛發(fā)展,數據標注作為大模型訓練的必要環(huán)節(jié),其上游產業(yè)需求大增。與此同時,當前數據標注行業(yè)發(fā)展存在一些亟待突破的難點,如缺乏統(tǒng)一的行業(yè)標準、標注質量參差不齊、人力資源與技術水平不匹配等。因此,推動數據標注產業(yè)高質量發(fā)展的重要性日益凸顯。
談到未來數據標注產業(yè)的前景,王鵬分析,在農業(yè)領域,氣象、農業(yè)病蟲害防治、農產品檢測等方面的數據標注需求將不斷增加;智能制造領域,對于工業(yè)設備的狀態(tài)監(jiān)測、故障診斷以及質量防控等方面的數據標注需求也在增大;隨著人工智能和大數據技術的發(fā)展,自然語言處理、圖像識別、語音識別等方面的數據標注需求進一步擴大;此外,自動駕駛和低空經濟的發(fā)展,對環(huán)境識別以及車輛行為預測,都有著巨大的數據標注需求。
王鵬指出,繁榮數據標注產業(yè)生態(tài),關鍵是做好“標準制定”,應制定符合各行業(yè)特點的管理規(guī)范,以滿足不同行業(yè)對數據標注的需求。同時,要提前布局數據標注的多模態(tài)融合,確保標注過程合法合規(guī),保障數據安全。
下一步,國家發(fā)展改革委、國家數據局、財政部、人力資源和社會保障部將強化數據標注產業(yè)頂層規(guī)劃,協(xié)調解決產業(yè)發(fā)展過程中存在的重大問題。加強政策解讀和案例征集等宣傳推廣,營造數據標注產業(yè)發(fā)展的良好氛圍。(王 君)