制定数据标注规则必须坚持“三个原则”

当前位置：首页>>经验交流

经验交流

制定数据标注规则必须坚持“三个原则”

时间：2024-02-19　　作者：　　新闻来源：最高人民检察院【字号：大 | 中 | 小】

数据标注是法律监督算法模型的“眼睛”。创新数字检察战略实施路径，必须坚持客观规范、真实安全，透明可信可解释，人工辅助、权责明晰、权责一致的原则。

制定数据标注规则必须坚持“三个原则”

□通过添加法律监督标签或体现法律监督需求的标识，将归集的执法司法数据转化为法律监督算法模型训练数据，推动训练数据不断优化，合乎检察机关监督办案法律规范要求，赋能法律监督权依法公正高效运行。

□要将制定数据标注规则作为检察机关内部数据治理的抓手，探索建立健全数据质量评估制度，加强数据归集、清洁、标注与质量评查等环节一体规范与机制衔接，拓展数字时代案件管理的深度与广度，高质效促进案件管理现代化。

数据标注、训练数据等，由最初算法技术表达，逐步进入我国行政法规规范范畴，被赋予法律内涵。国家网信办、工业和信息化部、公安部2022年公布的《互联网信息服务深度合成管理规定》明确，训练数据是指被用于训练机器学习模型的标注或者基准数据集。国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布的《生成式人工智能服务管理暂行办法》（下称《暂行办法》）规定，在生成式人工智能技术研发过程中进行数据标注的，提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则。规范性文件对算法技术概念的提炼与规范，为数字法治体系中相关技术术语的规范表达提供了借鉴与支撑。综合改革实践，数字检察中的数据标注，包括对归集而未经处理的证据材料、案卷信息以及执法司法活动中形成的语音、图片、文书、视频等数据，进行特征标签、分类及加工处理等，将非结构化的数据转变为机器可识别的结构化数据，并采取有效措施优化模型训练数据，保障数据质量。简单地说，就是通过添加法律监督标签或体现法律监督需求的标识，将归集的执法司法数据转化为法律监督算法模型训练数据，推动训练数据不断优化，合乎检察机关监督办案法律规范要求，赋能法律监督依法公正高效运行。而针对这一活动制定实施的规则，即为数据标注规则。

自人工智能训练师于2020年纳入国家职业分类目录，《人工智能训练师国家职业技能标准（2021年版）》将数据标注员作为其工种之一，从一个侧面说明了数据标注在人工智能场景应用中的重要性。制定数据标注规则，优化数据标注工作，是探索完善大数据法律监督模型、创新数字检察战略实施路径的重要一环。具体来说，要坚持客观规范、真实安全，透明可信可解释，人工辅助、权责明晰、权责一致的原则。

坚持客观规范、真实安全

数据标注是法律监督算法模型的“眼睛”。构建数字检察法律制度体系，制定与优化数据标注规则是基础一环。要按照包容稳慎和分类分级监管的要求，立足数字检察场景实际，通过细化标注规范与标准，让法律监督模型“认知”检察工作现代化的理念、目标与内涵，规范赋能“高质效办好每一个案件”。

其一，要科学把握数据标注的价值内涵与目标。随着改革实践的深化，数字检察以“业务主导”为出发点的图示不断清晰，“数据整合”的首要任务为归集、共享数据资源，彰显数据要素价值。数字检察中数据标注应有三层内涵。一是通过数据标注，实现监督办案业务数据化。数据标注规则既要让大量业务信息真实准确、合乎规律地转化为数据，也要避免海量数据获取、归集与标识中超越职权、“越位”“代位”。二是优化数据标注规则，既要体现算法辅助赋能“效”的要求，更要有“质”的保障。要通过优化训练数据标注，提升算法辅助赋能质效，确保算法辅助本身公平公正。三是推动构建法律监督知识图谱，保障法律正确统一实施。保障法律正确统一实施，是大数据标注规则制定与实施的直接目标。要遵循检察规律、司法规律，确立符合检察工作现代化需要的执法司法数据标注规则。

其二，要坚持社会主义法治理念，依法规范标注活动。要深入落实个人信息保护法、《暂行办法》等法律规范规定，规范赋予案件数据信息中特定词汇、表述及图像数据等相应标签，明确与完善分类、拉框、注释、标记等操作规范，防止产生地域、性别、年龄、职业、健康等歧视，尊重当事人合法权益，保障诉讼参与人诉讼权利，维护司法公正权威。

其三，要突出分类分级规制，注重赋能一体履职、综合履职、能动履职。从技术层面而言，不同业务、不同监督办案环节数据标注的要求不同，监督规则提炼、数据应用路径也不一样。要立足刑事、民事、行政、公益诉讼检察等办案实际，聚焦算法模型监督点，分类分层优化数据信息标注规则和标准，推动数据归集、交互、清洁规范、高效、准确，强化数据共享共用、融合开发。要有效落实人民检察院组织法、检察官法等法律规定要求，在业务数据多样化的基础上，通过标注规则的内涵一致、标准衔接，强化检察一体化履职数字化智能化。

坚持透明可信可解释

数据标注规则应在适当范围和条件下透明公开，确保可解释、可信。个人信息保护法第24条、第27条基本确立了算法解释权的原则规范。根据网信办、工业和信息化部、公安部、国家市场监督管理总局《互联网信息服务算法推荐管理规定》第15条、第16条与第17条要求算法推荐服务提供者以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等，强调对用户权益造成重大影响的，要依法予以说明并承担相应责任。《暂行办法》强调，提供者应当“按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明，并提供必要的技术、数据等支持和协助”。司法领域，数据标注规则更要坚持透明可信、可解释，符合算法解释的规范要求。

诚然，从技术逻辑看，并不是所有算法都存在“黑箱”，由此也有论者认为，并非所有算法都要履行算法解释权责。具体到执法司法活动，落实党的二十大“强化对司法活动的制约监督，促进司法公正”的部署精神，算法赋能裁量权行使，要体现权力制约监督、严格公正司法的改革要求。制定与优化数据标注规则，要将透明可信、可解释确立为基本原则，并建立相应的配套机制。对于关键场景、争议场景，比如重大复杂案件裁量赋能等，要将数据标注规则解释作为算法解释的重要内容，明确解释机理与标准。同时，跟进数字检察场景创新，有效衔接训练数据处理机制，明确预训练、优化训练等训练数据处理规范，小切口、重规制、强集成，确保算法赋能公开公正。

坚持人工辅助、权责明晰、权责一致

贯彻坚持人工辅助、权责明晰、权责一致原则，提炼与完善数据标注规则，要贯彻全面准确落实司法责任制的部署精神，坚持人工智能融合应用监督办案的辅助定位，突出检察官办案主体地位，落实“谁办案谁负责、谁决定谁负责”的改革要求。换言之，人工标注是法律监督训练数据标注的主要方式，人工辅助是数字检察中数据标注的基本定位。生成式人工智能等现代科技成果的赋能应用，不得代替检察官监督办案，仅可作为检察工作、检察官依法行使职权的参考。

其一，要注重把握数据标注等工作的监督办案属性，由检察官主导，并承担相应的司法责任。尽管只是辅助定位，也不代表完全规避了执法司法责任。而且，数字检察中包括数据标注、人工智能算法测序等业务，并不能直接委托人工训练师，或全权委托于人工智能模型研发企业单位。检察办案的亲历性与法律监督素养，是数据标注规则优化实施的基本保障。数字法治场景中数据标注、规则提炼、建构训练数据等工作，正在逐步呈现出更多执法司法属性，理应纳入监督办案业务范畴，确保司法责任无盲区、定责追责无死角。要科学把握人工智能辅助办案的特点与规律，将辅助参考、决策赋能作为数字时代监督办案的重要组成部分，规范基层检察机关和科技企业合作限度，明确限定企业收集信息与数据的范围和权责。

其二，明晰数据标注的司法责任认定与追究范畴。在数字法治场景演进过程中，法律监督办案方式、模式与机制迭代更新，司法责任认定、追究与检察官惩戒制度要按照责任与处罚相当、惩处与教育结合、追责与保护并重的原则，跟进完善、强化制度创新。要以制定数据标注规则、明晰司法责任追究范围为切入点，探索构建符合数字法治场域法律监督实际、公平合理的司法责任认定和追究机制。探索组建司法人工智能伦理委员会等机制，综合采用合规审查、安全评测评查等方式，防范化解人工智能应用过程中的安全风险。

其三，要注重与数据质量评查等制度机制相衔接。最高人民检察院《2023—2027年检察改革工作规划》专门部署“健全数字检察制度体系”，明确要“积极构建‘业务主导、数据整合、技术支撑、重在应用’数字检察工作模式”“强化检察机关内部数据治理”，体现了技术、机制与制度一体推进的数字演进进路。立足当下，要将制定数据标注规则作为检察机关内部数据治理的抓手，探索建立健全数据质量评估制度，加强数据归集、清洁、标注与质量评查等环节一体规范与机制衔接，拓展数字时代案件管理的深度与广度，高质效促进案件管理现代化。

（作者单位：最高人民检察院法律政策研究室）

［责任编辑：　赵衡　翟焜］