数据标注师:教会AI,然后被AI替代?

广东科技头条
+订阅

“滴滴答答……”在广东清远的一间200平方米的办公室里,李阳(化名)将眼睛凑近屏幕,食指熟练地点击鼠标,将“电视机”“打开”“关闭”等一大批词汇,标注上“物品”“动作”属性。这样的操作,他每天要重复成千上万次。

在北京的一家科技公司里,江江(化名)正伏案修改大模型生成的新闻稿件,将自己过去积累的文学知识和写作经验,悉数传授给AI。

这两份工作看似不同,但都有一个共同的名字——“数据标注师”。数据标注师是一个在人工智能领域中至关重要的角色。他们通过对数据进分类、注释、标记,将其转化为机器可识别信息,为AI训练提供“养料”。

DeepSeek技术突破,高质量数据需求激增,数据标注行业发展空间广阔,但像李阳这样的数据标注员,可能被自己参与塑造的AI取代。让江江担忧的是,当把自己的知识、经验教给AI后,可能也会失去工作。

数据车间

林宇(化名)几乎每天都在机械、重复地做着同一件事:对着人像照片,用鼠标圈画眼睛、鼻子、嘴巴、手脚……这是他与AI独特的交流方式。

AI无法天然识别人的五官和肢体,需要标注员先将这些部位圈画出来,帮它建立认知。林宇猜测,标注好后的数据,可能会用于自动化修图、人像识别等AI模型训练。

在人工智能领域流行着一句话:“有多少人工智能,就有多少人工。”说的是,“喂养”一个AI模型需要的上亿个数据样本,都要经过数据标注员的双手,最终流向算法研发方,服务AI产品。

在此过程中,标注员就像“数据车间”里的“数据工人”,对这些样本进行不同的形式的加工,确保AI可以看懂,便于后续训练。

阅读语句、图片、视频,滑动鼠标、拉框勾选……这份工作上手容易,却也枯燥乏味。从9时到18时30分,除吃饭、上厕所,标注员一直在工位上重复鼠标操作,有时为了赶项目工期还得加班加点。

林宇记得,有一天,他标注了100多张人像图,其中不少是多人合照。晚上休息时,他闭上眼都能看到光标在人脸上闪烁,手指也不自觉跟着动。

他的工资由“几毛钱”累计。在招聘平台上,多数数据标注公司月薪在3000元到5000元,兼职时薪多为20元到30元。按林宇经验,如果是处理图片数据,计件算,每天完成2000个拉框标注,能赚120元;计时算,每天做够产量,工资能有100元。

虽然薪资不高,但林宇、李阳挺喜欢这份工作。

李阳干过摄影,当过销售,但都不适合他。高频率地与人接触,对他的性格很有挑战。“推销产品时,客户可能比我说的话都多。”当数据标注员几乎仅与数据打交道,李阳数过,每天他与人面对面说话不超10句。

林宇此前在广州、深圳工作过,但一直想回清远发展。在家附近就能有这样一份“坐办公室”的工作机会,令他感到满意。更重要的是这份工作与时代接轨,能与AI建立联系。

AI越来越火,李阳和林宇其实并不清楚,这些标注过的数据最终会流向何处,塑造了哪一款AI产品。但在他们的视角下,AI早已不是一个遥远的概念,而是由自己亲手垒起的一座“大厦”。

“高质量的标注有助于机器精准理解、快速学习和高效训练,提升模型的准确性和通用性。”华南理工大学计算机科学与工程学院副院长张通表示,在人工智能发展中,数据标注是基础且关键的一环。

随着大模型的发展,数据标注服务可应用于自动驾驶、互联网、智能安防、智慧金融、新零售、智慧家居等多种人工智能应用场景,创造了更多就业岗位。

转行机遇

江江成为北京某科技公司的员工时,触摸到了数据标注的另一重维度——工作内容也不那么机械单一。

作为科技公司数据部“数据专家”,江江每天要结合用户的提问,对大语言模型生成的答案文本进行修改。其中,可能涉及知识内容、逻辑、文风多方面的调整。

“这就像教一个学生写新闻稿,可能第一次教他写导语,第二次教他使用修辞手法,第三次教他正确使用标点符号……”江江比喻道。

同样被叫做“数据标注师”,标注员让AI睁眼看世界,数据专家则让AI有了“真本事”。数据专家标注后的文本喂给大模型,经长期大量学习,AI 生成的新闻、文学作品将更专业。

她所在的部门里,不少同事像她一样从传媒行业转行,还有人放弃了北京的事业编制。“数据专家”似乎成了大模型风口下可遇不可求的转行机遇。

“低门槛仅是数据标注行业初级阶段存在的现象,如今,垂直领域的大模型应用越来越多,数据标注的专业门槛也越来越高。医疗数据标注要有医学知识,多语种内容审核标注要有跨文化理解能力,法律文书标注要有条文理解能力……”在华南理工大学计算机科学与工程学院院长陈俊龙看来,这一重维度里的数据标注,其实是AI快速发展的阶段性产物。

而在“数据车间”里,“数据工人”们对于来自行业顶端的变化不是没有感受。

李阳明显感觉到,在做文字标注时,有越来越多“不那么直白”的表达,他要分析文本背后可能的情感、动机和意图,推测出可能需要AI做出的动作,再进行标注。最直观的感受是,以前只要标注“打开”“空调”这些关键字眼即可,现在同样场景下文本里却是“天气好热”“好冷”的表述。

一位数据服务行业的业内人士解释,这是因为AI能力越强,对数据规模、质量的要求就越高,相应地对标注员知识背景、逻辑思考能力要求也就越来越高。他记得,2016年到2018年,中专学历就能做数据标注,之后基本要大专以上学历,如今大模型的数据标注师几乎要求本科、研究生学历。

“大模型时代,数据标注产业正从劳动密集型向技术密集型和知识密集型转变。”他说。

未来,无法适应变化的标注员或将被行业淘汰。

保持学习

2月底,华为一项自动数据标注相关技术申请专利引发关注。该技术方法能自动处理数据,减少对人工数据标注的依赖,提高标注效率和质量。

“这是一种以AI促AI发展设想的现实印证。”陈俊龙提到,当AI向实用化加速发展,标注服务也将向专业化、精细化方向发展,基础性、重复性的标注任务将加速被AI替代。

这意味着,大量底层“数据工人”亲手参与塑造的AI,将逐渐侵蚀他们自己的职业根基。

张通认为,自动化标注技术将主要替代那些重复性的标注环节,对于语义理解、价值判断这类涉及深度认知和决策的核心工作,仍然离不开人工的参与和主导。

然而,处于数字标注行业金字塔的顶端,江江也在思考。

“现在确实需要优质的人文社科人才为AI进行知识赋能,但谁也说不好这个职业的发展前景能维持几年。”在江江看来,这是一份“消耗型”工作,等到AI掌握了她所有的专业能力,能够“自己训练自己”,她也许就会失业。

张通则认为,数据标注行业的未来发展前景还是十分乐观的。

“数据标注产业目前处于飞速发展阶段,市场需求和规模不断扩大,据估计,2025年我国数据标注市场规模可超过百亿级。”他介绍,广东在清远启动了首个公共数据标注基地,吸引国内多家龙头企业入驻,产业集聚效应正逐渐形成。

对于数据标注师的职业发展,他认为职业路径将从较为单一的执行层面,向策略规划、质量管控等多元化方向拓展。未来,优秀标注师需兼具领域知识、逻辑判断和AI工具应用能力。

在清远的一家数据标注公司里,工业风的水泥顶、清冷的白炽灯下,一张张磨砂玻璃隔开的工位上,键盘和鼠标的敲击声织成密网。李阳和他的同事们继续为AI编织认知世界的经纬。

他干得很不错,被一家大厂的数据外包公司挖走,当上了小组长,工资涨了25%。

“工作总会遇到新难题,会继续保持学习,提高自身能力,和AI一起进步。”李阳说。

更多阅读

千行百业为何纷纷接入DeepSeek?丨南方深读

AI人才的选择,正在发生微妙变化 | 南方深读

万能的AI,能看病、炒股甚至算命吗? | 南方深读


开栏语:

从政务到商务,从企业到产业,千行百业纷纷接入DeepSeek。这场由国产AI大模型领衔的技术革命,带来哪些启示?将如何重塑生产力和生产关系?即日起,南方日报、南方+推出“AI启示录”系列报道,从产业、人才、应用等多角度观察AI带来的深刻变革。敬请关注。

采写:南方+记者 吴雅楠

统筹:吴少敏 李秀婷 黄锦辉

编辑 刘婷婷
校对 曾慧雯
+1
您已点过

订阅后可查看全文(剩余80%)

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开