Z站长网 Z站长网 AI 查看内容

数据标注为AI发展加工“优质质料”

2025-1-28 19:44| 发布者: 安小飝| 查看: 400| 评论: 0

摘要: 原标题:数据标注为AI发展加工“优质质料”随着人工智能迅猛发展,高质量练习数据短缺渐渐成为制约行业进步的一大瓶颈,而数据标注财产可为人工智能创新发展提供强盛动力。国家发展改革委、国家数据局、财务部、人力 ...

原标题:数据标注为AI发展加工“优质质料”

随着人工智能迅猛发展,高质量练习数据短缺渐渐成为制约行业进步的一大瓶颈,而数据标注财产可为人工智能创新发展提供强盛动力。国家发展改革委、国家数据局、财务部、人力资源和社会保障部四部分日前团结印发的《关于促进数据标注财产高质量发展的实行意见》(以下简称《实行意见》),提出到2027年的发展目的:数据标注财产专业化、智能化及科技创新本领明显提拔,财产规模大幅跃升,年均复合增长率凌驾20%。

我国数据标注财产近况怎样?数据标注财产高质量发展还必要跨过哪些“门槛”?针对这些题目,科技日报记者举行了采访。

原始数据变为可用资源

“普通地说,练习人工智能大模子的过程就像老师讲授生识字。”华南理工大学盘算机科学与工程学院副院长张通形象地表明道,数据标注就是给数据“贴标签”大概“做暗号”,必要专业职员向大模子阐释各个数据的标签及需实行的相应使命。他们“辅导”大模子到场练习的数据是什么,给图像、语音、文本等各种数据“贴标签”。高质量的数据标注,有助于呆板精准明白、快速学习、高效练习,明显提拔大模子的正确性和泛化本领。

在练习ChatGPT时,美国开放人工智能研究中央(OpenAI)就投入了大量资源用于数据标注。为确保标注使命高质量完成,使ChatGPT能更好地明白人类指令,保障大模子的正确性与可靠性,OpenAI约请了浩繁“老师”。这些“老师”涵盖一样平常数据标注职员和专业人士,还包罗博士级别的专家。

数据标注是人工智能发展的焦点基石之一。“数据标注财产是对数据举行筛选、洗濯、分类、解释、标志和质量查验等加工处置惩罚的新兴财产,其焦点使命是对原始数据举行加工,使之成为可用于练习人工智能大模子的优质质料。”张通先容,数据标注作为练习大模子至关紧张的一环,直接影响呆板学习模子的性能,对支持人工智能本领程度提拔有紧张作用。

在张通看来,未经处置惩罚的原始数据只是潜伏资源,而颠末标注处置惩罚后沉淀的数据,才气在市场上举行有用生意业务和流畅,从而充实开释数据要素代价。培养强大数据标注财产,对于提拔数据供给质量、推动人工智能创新发展不可或缺。

业内人士以为,随着人工智能技能不停成熟、应用范畴连续拓展,数据标注行业将迎来更广阔市场空间,尤其是在低空经济、聪明都会、主动驾驶、聪明医疗等新兴科技范畴显现出巨大潜力。

财产步入快速发展阶段

环球数据标注市场现在正处于敏捷增恒久。比年来,我国数据标注财产已进入快速发展阶段,财产链条不停美满,技能创新结果渐渐实现市场化应用。据测算,2023年我国数据标注财产规模已达800亿元左右。

四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个负担数据标注基地建立使命的都会,在大模子标注、主动化标注等范畴取得紧张突破。长沙信息财产园作为长沙首批数据标注基地之一,已吸引智能网联汽车、数据标注、网络安全等1万余家各类数字企业入驻,乐成打造了人工智能创新中默算力服务平台。

广东积极推进数据标注练习试点和基地建立,为大模子练习提供坚固数据支持。2023年9月,广东省公共数据标注练习试点正式启动。在广东省公共数据标注基地(清远),百度、燕湖科技、好思达等一批在主动驾驶、政务公共标注范畴体现突出的企业已率先入驻。依附龙头企业的动员作用和数字经济财产的集聚效应,清远的数据标注财产发达发展。

“昨们以数字经济财产为焦点,与数字经济财产龙头企业精密互助,致力于打造国家级数据标注财产集聚区和产教融合树模区。”广东省公共数据标注基地(清远)负责人李艳康先容,落户在此的百度智能云(清远)人工智能底子数据财产基地已累计引进孵化数据标注企业5家,培养专业数据标注师超300人。将来,基地将连续培养孵化更多良好数据标注企业,推动清远数据服务财产不停强大发展。

复合型人才缺口仍旧较大

《实行意见》的出台,将进一步提拔数据供给质量,有用办理制约人工智能财产发展的高质量数据短缺题目。

值得留意的是,随着人工智能应用的不停深化,对数据标注的需求也愈发细分化和专业化。2024年7月,张通团队和广州华银康医疗团体股份有限公司在人工智能与数字经济广东省实行室(广州)共建AI病理研究中央,动手研发人工智能病理大模子,让人工智能模子能像专业大夫一样看病问诊。在此中的数据预处置惩罚环节,中央特殊约请了3位资深的主任级医师举行数据标注。

“医疗、质料等专业范畴,涉及到专业对象和术语联合的标注过程,只有专业从业职员才气胜任标注工作。而且,标注使命极其耗时、耗力、耗资源。整个标注工作并非一挥而就,而是必要在现实应用场景中优化、连续迭代,促使模子智能化程度不停升级。”张通说,当前我国数据标注行业人才缺口仍旧较大,亟待造就复合型数据标注人才,这是我国数据标注财产高质量发展必须跨过的“门槛”。

《实行意见》对增强标注人才队伍建立作出摆设。以人才项目筹划和科技项目等为抓手,培养和引进高端专业人才;制(修)定人工智能练习、数据标注相干职业国家职业尺度;支持数据标注范畴职业资格与职业技能品级衔接互认……一项项办法,将为数据标注财产高质量发展提供支持。

美满的财产生态建立对数据标注行业发展同样紧张。《实行意见》提出,流通数据收罗、标注、人工智能应用财产链,推动数据标注财产上卑鄙协同发展;支持数据标注龙头企业和第三方机构等建立数据标注开源平台,助力中小企业发展;培养一批人力资源、供需对接、国际互助、法律审计等服务数据标注的第三方机构,美满数据标注财产生态。

“将来数据标注行业的发展,也可思量‘以人工智能促人工智能’的思绪,即让已经完成学习的人工智能反哺数据标注工作,进步服从。这是值得深入探究且极具代价的研究方向。”张通以为,数据标注行业的发展有望加快推动数字经济与实体经济深度融合,加速形成新质生产力。

(责编:杨曦、陈键)
关注公众号:人民网财经


路过

雷人

握手

鲜花

鸡蛋
返回顶部