中國網4月1日訊(記者 劉佳)日前,教育部、國家語委、中央網信辦共同印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(以下簡稱《意見》),對加快推進以信息化促進語言文字事業高質量發展,以數字化賦能語言文字更好服務現代化建設等,作出了全面部署。
3月31日,教育部舉行新聞發布會,就《意見》進行全面解讀。會上,相關負責人表示,今年將加快建設國家語言文字大數據中心、國家關鍵語料庫和國家語言資源信息庫,服務大語言模型以及生成式人工智能等技術前沿創新應用的制高點。
《意見》提出,到2027年,進入以數字中文建設為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規范標準、前沿語言技術、優質語言資源、新型語言服務等基礎支撐能力顯著增強;2035年,進入全面推進語言文字信息化發展的深化賦能階段,推動承載中華文化的中文在全球數字空間、網絡空間以及生成式人工智能等關鍵場景中的使用占比和價值引領作用顯著提高,實現中國語言文字信息化整體水平位居世界前列。
教育部語言文字信息管理司司長劉培俊介紹,今年將啟動實施國家關鍵領域語料庫建設計劃。該語料庫將在關鍵學科、重點行業、戰略區域、民生期待和社會急需領域,分批建設規范、安全、優質的國家關鍵語料庫。目前,教育部、國家語委已經支持建設了30余項關鍵領域的語料庫。
語料庫將以建設語料基礎設施為新基建,服務大語言模型以及生成式人工智能等技術前沿創新應用的制高點。目前,教育部、國家語委已經支持布局了五個領域的自主安全可控大語言模型建設項目,下一步,將根據需求穩步擴大建設范圍,提升建設成效。
建設語料庫,要逐步建立健全語料共建共享新機制;研制語言資源、語言數據、基礎語料以及大語言模型的技術和管理標準;依托高校研究機構推進多學科交叉融合,為語言科技、語料建設以及人工智能創新應用培養高素質人才。
“當前以深度求索(DeepSeek)等為代表的人工智能技術創新不斷取得突破性進展,在語言的教育教學和研究領域,有多個語料庫。但是很多語料庫還處于單一文本模式和領域應用階段,在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智能相結合的大規模應用方面還存在不足。”教育部語言文字應用管理司副司長王暉表示,新型語料庫將立足人工智能時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規范、可信、高質量的語言文化語料資源。
2025年,教育部語言文字應用管理司已啟動新型國家語料庫的建設工作,開發建設“中華文脈新型語料庫”“中華大閱讀體系語料庫”,以這兩個示范庫建設整體打造出標桿。在此基礎上,探索建設系列教育、語言文化國家新型語料庫群,服務教育強國、文化強國建設。
編審:張艷玲 王月博
出品人:王曉輝
總監制:薛立勝
監制:蔡曉娟
制片人:王月博
主編:劉佳
編輯:韓雅潔 孫曉彤 仝選
技術支持:王岳
頁面設計:顧榕楠 張宇彤
推廣:王濤 倪靜靜 常瑤 張運興 劉倩
《向Youngπ》系列可視化產品將聚焦中外“Z世代”群體,以青年的視角認識中國道路,以青年的思想理解中國的立場,以青年的語言講好中國故事,為促進人類進步事業提供新動力。
聯系方式:86-10-88828193
86-10-88828221
電子郵件:caifang2024@126.com