来源时间为:2024-01-29
数据标注环节在大模型时代扮演着至关重要的角色,有标注的高质量数据才能释放人工智能的价值;通过发展数据标注产业,可以大幅向新一代人工智能赛道靠拢;数据标注始终需要人的介入,无法完全被AI取代
数据标注业务门槛较低,对受资源禀赋约束的市(州)而言,更容易起步;虽然本身产值不高,但数据标注或能带动人工智能全产业链发展;相比西部其他省份,四川各市(州)具备发展数据标注产业的场景优势
目前就是四川大力布局数据标注产业的“最佳时机”。四川人工智能发展的牵引力主要来自成都,处于产业链下游的数据标注业务会向周边外溢
如果说,2023年的ChatGPT引起了全世界对大模型的关注,那么2024年将是生成式人工智能(简称AIGC)的爆发之年,这是来自大部分业内专家的共识。百度集团副总裁袁佛玉近日强调,AIGC正式进入拼落地、拼应用的“下半场”,“谁的效率高、谁能创造的业务价值更确定,谁就会胜出,而不仅仅是所谓的通用能力本身。”
川观智库了解到,腾讯云(自贡)数字经济产业基地项目已于今年1月正式投入运营,该项目将以数据标注业务为起点,为人工智能算法训练提供数据产品及各类解决方案。此前,工业和信息化部信息技术发展司负责人王建伟提到,要加快培育数据标注、清洗、聚合等大数据产业。为更进一步了解布局数据标注产业,川观智库采访了腾讯云(自贡)数字经济产业基地项目负责人王旭、四川省大数据产业联合会秘书长朱小军等业内人士,结合权威报告及相关研究,认为:数据标注产业是进入AIGC竞争“下半场”的入门券之一。除成都外,省内缺乏人工智能产业基础的市(州),可以关注数据标注产业。
【名词解释】
数据标注
指对市场上现存的大量原始数据(即非结构化数据,包括语音、图片、文本、视频等)进行分类、画框、标注、注释等处理,标记其数据特征,将非结构数据转化为规范化的计算机可识别的结构化数据,进而应用于人工智能算法的研发与训练。
为什么是数据标注?
数据标注是新一代人工智能发展的关键抓手,重要程度上升
业内普遍认为,标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。于人工智能发展而言,数据标注并非新业务。在大模型浪潮来临前,我国已对作为职业的数据标注制定了相关标准——2021年人力资源社会保障部发布《人工智能训练师》国家职业技能标准,数据标注员就是工种之一。但新职业的出现并不代表产业的发达。随着ChatGPT的横空出世,数据标注的重要程度上升,多方观点认为,数据标注是新一代人工智能发展的关键抓手。
数据标注环节在大模型时代扮演着至关重要的角色。ChatGPT/GPT-4之所以能在GPT-3基础上实现跨越式转变,正是因为在数据层面加入了高质量人类标注。“谷歌大脑之父”吴恩达近日预测,有三件事在未来十年内都不会改变,其中之一便是“人工智能需要良好的数据才能更好地运行”,因为有标注的高质量数据才能释放人工智能的价值。王旭也向川观智库表示,按照规范化流程开展数据标注工作,制定明确的标注、质检、审核规则,构建高效数据标注体系,组建高效成熟的标注团队,将有效加快人工智能的落地速度。换句话说,为大模型提供高精度和高质量的标注数据,将成为技术在具体场景落地的关键。
通过发展数据标注产业,可以大幅向新一代人工智能赛道靠拢。据公开报道,百度智能云在全国已与各地政府合作共建十余个数据标注基地,累计为各区域提供超过11000个稳定就业岗位,间接带动50000人就业,培育数万名AI数据人才,同时吸引孵化优质企业超200家。朱小军分析,地方政府一方面是从招商引资角度去考虑,通过和大厂的融合,打造信息化、数字化高地,以此吸引产业链上下游来落户;另一方面,则是从技术布局角度考虑,先通过较低的门槛留住人才,为以后新的产业布局打基础。普华永道发布的《人工智能基础数据产业基地建设价值报告2023》显示,结合百度智能云数据标注基地的实践,数据标注基地的确能为处于不同发展阶段的区域破局人工智能产业带来显著助力。
数据标注始终需要人的介入,无法完全被AI取代。随着人工智能的快速发展,很多人担心自己的工作会被AI取代。对此,受访专家大都认同AI介入数据标注过程是一大趋势,但他们也强调,人工标注依然无法被替代。一是由于监管会更严。人工智能对于一些新生事物的理解不够透彻,对意识形态的判断也不够清晰,还会涉及伦理法规等问题。“一个最简单的例子,互联网上声音大的一方不一定是对的。”朱小军强调,即便AI辅助人类提升标注效率,也仍然不能脱离人工监管。二是要求会更高。王旭表示,十年前和现在的数据量级差异极大,数据类型更丰富,内涵也更为复杂,所以未来的数据,尤其是行业数据集还会有更大的变化,因此人类将会去完成更高阶、更复杂、精细度更高的数据标注任务,比如算法优化或是对数据集进行分解分类。
四川市(州)为什么有机会?
“门槛低 场景多”,四川有充分条件和优势发展数据标注产业
不久前举办的2023天府软件园年度产业大会上,华为云全球Marketing副总裁肖纪文提到,国内有很多数据产业园专门完成数据构建和标注,市场空间非常大。四川大数据产业联合协会牵头编写的《四川省大数据产业白皮书(2023)》也提到,要发挥冷凉气候条件和丰富清洁能源优势,就要推动数据中心规模化建设,拓展数据标注等市场空间。中国工程院院士邬贺铨也曾指出,西部数据中心需要向上游数据预处理(标注、清洗、脱敏)业务拓展,这是西部的一个机会。
对四川的机会,我们可以从以下两方面来进一步理解和分析。
数据标注业务门槛较低,对于受资源禀赋约束的市(州)而言,更容易起步。《四川省“十四五”新一代人工智能发展规划》提出,计划到2025年,人工智能核心产业规模超1000亿元。虽然暂无当前四川省人工智能产业规模的具体数据,但截至2023年三季度,成都市人工智能产业规模达612亿元。对比上面的两组数据来看,四川省人工智能产业的发展高度集中在成都,周边市(州)则基础薄弱甚至存在零基础的现象。而数据标注业务目前进入门槛仍然较低,不需要极高的人力成本和算力成本,就可以让城市开始发展人工智能产业。
去年6月,自贡市通过与百度共建数据基地,发展数据标注产业,实现了人工智能产业零的突破。王旭表示,这也是为什么腾讯云在自贡的数字经济产业基地要“以数据标注业务为起点”,人工智能产业要实现从零到一的突破比较困难,市(州)没有必要从一开始就锚定“高大上”的产业。
虽然本身产值不高,但数据标注或能带动人工智能全产业链发展。据量子位智库、艾瑞咨询等多家机构预测,国内数据标注市场规模将在未来五年内达百亿量级,看似并非一个“好生意”,但实际上,其背后有很大价值等待挖掘。在王旭看来,数据标注业务作为人工智能产业发展的重要基础环节,成为自贡这样的老工业城市切入数字经济赛道、助推城市数字化转型的有效途径。“先选择一个小切口进去,然后通过加快节奏把产业链的口子撕大,顺着产业链的上下游或者纵向、横向地去发展,才有可能进一步发展产业。”据王旭介绍,腾讯云目前就利用自贡当地的一些基础数据来训练文旅大模型,“未来这个大模型训练好了以后,我们还可以同步推到四川各地甚至全国,自贡的文旅大模型也算是我们做行业大模型的一个先行探索和尝试。”
相比西部其他省份,四川各市(州)具备发展数据标注产业的场景优势。量子位智库发布的《中国AIGC数据标注产业全景报告》(以下简称量子位智库报告)显示,AIGC众多垂直场景落地以及通用智能、具身智能等前沿领域探索,与高质量、专业化的场景数据密不可分。朱小军解释,人工智能通常会被比作一个正在学习的孩子,要在“读万卷书”的同时“行万里路”。“你只给他关在一个房间里,不接触更多场景,学习是没办法学好的。”朱小军认为,四川的市(州)恰好具备数据标注业务所需要的各种高质量场景,如农业上具备丰富的智慧农业场景;工业上涉及交通运输、汽车制造业、生物医药等各方面;服务业也有餐饮、文旅等强项。
什么时候以及怎样发展?
数据标注业务显现出由成都向周边外溢趋势,市(州)抢抓机遇时不我待
产业的发展需要“天时”与“地利”,才能更好更快地推进。川观智库认为,目前就是四川大力布局数据标注产业的“最佳时机”。
四川人工智能发展的牵引力主要来自成都,因此处于产业链下游的数据标注业务会向周边外溢。数据显示,2022年,成都人工智能产业增速位居全国第一,产业综合实力排名全国第6,成为西部首个国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区。同时,成都依托四川大学、电子科技大学等高校,在学术人才上也不输沿海地区。换言之,成都的人工智能产业具备创新资源、算力设施、应用场景、规模市场等综合优势,已经可以更多地去发力产业链中上游。
而数据标注属于基础业务,处于产业链下游。王旭表示,随着业务发展的纵深,腾讯云在四川的业务逐渐开始下沉到二、三线城市。朱小军也提到,四川起码有上百家企业在做数据标注,但由于成都的成本相对较高,目前的趋势就是数据标注正在出现产业外溢的情况。“无论从地理的区位优势来看,还是从本身的产业转移承接来看,成都周边市(州)都应该去把成都过剩的那一部分接过来。一旦有了最基本的思想意识和一定的经验,后面再去转型,必然要容易得多。”朱小军称,数据标注业务也是同理。因此,现在也正是各个市(州)抢抓机遇的好时机。
业务外溢会给市(州)提供一定就业岗位,可有效缓解四川人才的流失。《四川省2023届高校毕业生生源信息与就业意向调查报告》显示,毕业生意向在四川省就业的比例高达84.55,且对从事信息传输、软件和信息技术服务业有意向的人数在所有行业中排名第三。换言之,如果布局不及时,一些本有意向留在四川就业的人才可能会流向外地外省。王旭表示,目前数据标注还是一个劳动相对密集的产业,“我们也提出了一个远期规划,随着业务的发展,希望未来三年能够给整个基地带去上千个就业岗位。自贡就有四川轻化工大学、自贡职业技术学院等高校,可以很好缓解年轻人就业的问题。”朱小军补充,现阶段需要加快转变大众对数据标注行业的认知,从政府到媒体到行业协会,要进行科普、宣讲以及政策引导,鼓励更多智力型、知识型的人才进入到行业里。
数据标注员的工作含金量和工资待遇在提升,更可以留住高素质人才。数字经济时代,数据已经成为“新石油”,而大模型的好坏,就取决于数据的质量、规模和多样性。过去,由于数据标注业务的劳动相对密集、重复性较强,被很多人视作人工智能产业工厂流水线上的低端环节,但朱小军表示,现在对于数据标注的要求早就不是“看到什么说什么”的阶段了,“比如,针对一套茶具,数据标注员不仅要看到眼前是一套茶具,更要从中看到中国的文化、礼仪。”川观智库从百度阿波罗智行(西南)人工智能基础数据产业基地了解到,当前大模型,尤其是行业大模型所需的数据,不再是互联网的免费公开数据,要想训练出高精度的模型,就需要更多垂直行业的数据集。除了通识领域外,对于编程、医疗、金融、政务等垂直细分领域的大模型训练,都需要更高素质的专家团队参与数据标注。也就是说,数据标注业务本身对从业人员的知识储备、技术能力要求变得更高。
更高的要求对应着更高的薪酬待遇。比如海外人工智能企业SurgeAI在为OpenAI提供服务时,曾专门招募具有数学或STEM学位(即由科学、技术、工程、数学组成的综合体)的员工组建标注团队,顶级标注员薪酬可达25美元/小时。从国内来看,猎聘大数据研究院发布的《2023年度就业趋势数据报告》显示,2023年数据标注的职位招聘平均年薪为12.38万元,不同类别的数据标注招聘薪资差别较大。仅从猎聘平台来看,最高月薪可达2万元—4万元。猎聘AIG部门负责人