通用大模型 RLHF · 奖励模型(RM)项目标注规则文档

本版本已根据实际 Excel 标注表结构完成修订。文档重点从「抽象 response_A~F 排序」调整为「固定模型列 + 排序位 + reward顺序」的实际标注模式,便于标注员直接按表执行,也便于质检员做一致性核查与数据回收。

文档版本
v1.1
生效日期
2026-03-18
项目代号
RM-P01
标注方式
偏好排序 · Excel
文档负责人
数据负责人
1
项目背景与目标

1.1 项目背景

RLHF(Reinforcement Learning from Human Feedback)是通用大语言模型对齐人类偏好的核心路径。其流程通常为:SFT → 训练奖励模型(RM)→ PPO 强化学习。RM 的核心职责,是将人类对候选回答的主观偏好转化为可训练的标量信号,使模型进一步朝着「更有帮助、更可靠、更符合人类偏好」的方向优化。

语言模型默认优化的是 next-token 预测损失,但「好答案」并不等于「高概率答案」。两者之间存在天然 gap。RM 的任务,就是把这个 gap 用偏好排序数据显式表达出来。

完整排序结果将被自动拆解为多个 (chosen, rejected) 偏好对,作为奖励模型训练输入。因此,排序质量会直接影响 RM 的学习效果。

1.2 项目目标

  • 构建覆盖多模型、多任务场景的偏好排序数据集(Preference Dataset)
  • 让标注结果稳定反映「通用回答质量」的人类偏好,覆盖 9 大评估维度
  • 通过多人标注与一致性验证控制质量,最终可用率不低于 85%
  • 为奖励模型提供可直接拆解的偏好顺序与 (chosen, rejected) 数据
2
数据概览

2.1 数据来源

针对同一个 question,使用多个大语言模型分别生成回答,形成质量存在梯度差异的候选集合,再由人工进行偏好排序。当前常见模型来源包括 OpenAI、文心、通义、豆包及其他模型,另可辅以人工补充理想回答。

2.2 数据总量级

原始 Prompt 数
30,000
条(覆盖 20+ 任务类别)
每题候选回答
4–6
个(来自不同模型)
最终偏好对
150,000+
对(由完整顺序拆解)
目标可用率
≥ 85%
通过质检比例
指标数量说明
原始 Prompt / Question 数约 30,000 条覆盖 20+ 任务类别
每条候选回答数4~6 个来自不同模型,存在质量梯度
排序任务组数约 30,000 组每组需完成完整排序
最终可用偏好对约 150,000 对由完整顺序自动拆解得到

2.3 输入 / 输出形式(Excel 版)

本项目采用 Excel 表格进行标注。每一行对应 1 条独立偏好排序任务。输入字段不再使用抽象的 response_A~F,而是固定模型列 + 排序位列

字段名说明填写规范
question用户问题 / 指令内容只读
gpt3 / wenxin / minmax / luca不同模型针对同一 question 的候选回答只读
排序位对应模型回答的名次填写栏,1 为最好标注员填
reward顺序最终从优到劣的完整偏好顺序标注员填 如:gpt3 > wenxin > minmax > luca
tie_flag是否存在并列标注员填 Y / N
hard_case是否为难例标注员填 Y / N
noteTop1 与末位核心理由标注员填 50 字以内
关键要求:「排序位」与「reward顺序」必须严格一致;若两者矛盾,则该条标注无效,退回重填。
Excel 标注 固定模型列 排序位校验 reward 顺序核心
3
人力配置与人效

3.1 人员构成

项目负责人(PM)
1
规则制定、进度管控
资深标注员(Lead)
3
难 case 仲裁、新人培训
标注员
20
每条数据 3 人独立标注
质检员
5
一致性审核、抽检、返工
角色人数主要职责
项目负责人(PM)1规则制定、进度管控、对外沟通
资深标注员(Lead)3难 case 仲裁、规则迭代、新人培训
标注员20执行排序任务,每条数据 3 人独立标注
质检员5一致性审核、抽检、复议、返工跟进

3.2 人效预估

总数据量 30,000 组,每条需 3 人独立标注,总任务量约 90,000 人次任务。按 7 周正式标注、20 名标注员测算,每人每日需完成约 125~150 条,熟练后合理区间约 129 条/天。

4
标注规则(9 大维度)
🔴
基础合规类为最高优先级:若回答在「响应需求」「事实正确」「基础质量」任一维度存在严重问题,可直接判为末位,无需再依赖其他维度拉分。

4.1 标注基本原则

标注员必须仅依据回答内容本身进行判断,不得因模型名称、个人既有印象或先验偏好影响排序。即使某模型历史表现较好,也不得默认排前;即使某模型历史表现较差,也不得默认排后。

4.2 9 大评估维度

维度核心解释判断重点
① 响应需求是否真正回答用户问题,是否满足格式/语言/字数等要求先看是否「对题」
② 事实正确事实、数字、时间、概念是否正确,是否存在幻觉流畅但错误仍排低
③ 基础质量完整性、一致性、安全性截断、矛盾、有害内容直接降末位
④ 信息丰富度是否多角度覆盖有效信息有效信息多于空话堆砌
⑤ 实用性能否直接用于现实场景能落地执行优于泛泛建议
⑥ 创造性是否有新意、表达灵活、有启发主要用于创作类 prompt
⑦ 专业度专业术语、知识深度、领域把握专业且准确才加分
⑧ 表达水平结构、逻辑、语气、语言艺术清晰得体优于堆砌修辞
⑨ 排版分段、编号、标点、可读性加分项,不能替代内容质量

4.3 开放式建议类问题的重点判断原则

  • 优先看覆盖完整性:是否涵盖该场景下的关键方面
  • 优先看可执行性:是否给出可落地的方法、机制、步骤
  • 优先看细节支撑:是否说明怎么做、为什么、出了问题怎么办
  • 避免空话:语言再流畅,若仅是常识堆砌,仍应排低位
5
标注策略与填写规则
本节为完整操作流程,请严格按步骤执行,不可跳步。所有结果填入 Excel 表格对应字段。

5.1 单条数据完整操作流程

1

阅读并理解 question

识别任务类型与格式要求。

2

快速浏览全部候选回答

形成初步优劣感知。

3

先做基础合规筛查

识别明显末位候选(响应需求、事实正确、基础质量)。

4

按 9 大维度逐项对比

记录关键差异点。

5

形成完整排序

先确定 Top1 与 Last,再排中间位。

6

填写 Excel 字段

填写每个回答「排序位」,再填写 reward顺序。

7

填写 note 与标记

填写 Top1 与末位核心理由;若 5 分钟仍难判断,标记 hard_case=Y。


5.2 排序填写规范

本项目采用「单回答填写排序位 + 全组填写 reward顺序」的双记录方式。

  • 排序位:1 = 本组最佳,数字越大越靠后
  • reward顺序:按模型名从优到劣填写,如 wenxin > gpt3 > luca > minmax
  • 排序位与 reward顺序必须完全一致
  • 若存在并列,需设置 tie_flag=Y,并在 reward顺序 中用 = 表示

5.3 Excel 填写操作要求

  1. 不得修改原始 question 与各模型回答内容
  2. 排序位必须填写阿拉伯数字
  3. reward顺序 中模型名称必须与表头一致,不得改写
  4. 不得留空:排序位、reward顺序、Top1 与末位 note 均不得缺失
  5. 若回答为空白、截断、乱码或明显异常,原则上直接排末位并备注说明
6
特殊情况处理
情况类型处理方式
所有回答都很差仍需给出相对排序,选「最不差」的排第一,并在 note 中注明整体质量偏低
某回答含有害内容直接排末位,在 note 中注明有害类型,并使用系统 flag 上报
Prompt / Question 本身疑似违规note 标注「Prompt 疑似违规」,提交后通知质检员
回答过长需关注信息密度,不可因长度自动给高分
难以判断思考超过 5 分钟仍无法确定,标记 hard_case=Y,提交当前最优判断
7
质检标准

7.1 质检流程概览

阶段质检类型触发条件处理方式
T+0日常抽检每日标注完成后随机抽 10%质检员独立重排并对比
触发型Hard Case 二审hard_case=Y质检员 + 资深标注员复议
周度一致性审核每周全量统计按 Kendall's τ 评估,低于阈值退回
触发型人效异常审核速度异常快或慢提高抽检比例至 30%

7.2 关键质检口径

  • 检查不同标注员之间排序是否一致
  • 检查单份标注内部是否自洽:排序位、reward顺序、note 三者不得矛盾
  • 检查是否存在明显模型名偏见、机械排序、随机排序嫌疑

7.3 质检判定标准

质检维度判定标准合格线不合格处理
排序方向性Top1 与 Last 判断基本一致≥ 90%警告 + 培训
有害内容识别有害内容是否正确排末位100%立即暂停上报
note 质量Top1 与末位说明是否有效≥ 85%退回补填
表内逻辑一致性排序位、reward顺序、备注三者一致100%退回重填
整体一致率Kendall's τ 相关系数τ ≥ 0.7追加抽检比例
8
案例与填写示例

8.1 Excel 单行示例

以下为实际 Excel 表格的单行结构示意(列之间为制表符分隔):

question gpt3 排序位 wenxin 排序位 minmax 排序位 luca 排序位 reward顺序
你能提供对活动票务和门禁管理的建议吗?
当涉及到活动票务和门禁管理时,以下是一些建议: 1. 网上售票平台:考虑使用在线票务平台,例如Eventbrite、猫眼票务等。这些平台可以帮助您方便地管理活动的票务销售、座位分配和门票验证。 2. 电子门票:推荐使用电子门票系统。通过将门票发送到参与者的电子邮件或手机上,您可以减少打印和分发实体门票的成本,同时提高入场流程的效率。 3. 二维码扫描:使用二维码扫描技术进行门禁管理。参与者在入场时出示电子门票上的二维码,工作人员可以使用扫描设备轻松验证门票的有效性。 4. 人工验证:如果使用二维码扫描不可行,您可以雇佣工作人员进行手动门票验证。请确保工作人员接受充分的培训,以便准确检查门票并避免欺诈行为。 5. 安全措施:采取必要的安全措施来防止票务欺诈和门票盗版。这可能包括使用防伪措施,例如特殊印刷或水印,并确保门票只能在指定的入口处使用。 6. 人流管理:对于大型活动,考虑实施人流管理措施,以确保顺畅的入场和出场流程。这可能包括分配入口通道、设立检票点和禁止无票者进入活动场地。 7. 数据分析:利用票务系统提供的数据分析功能,深入了解参与者的购票模式、偏好和参与度。这将有助于您优化未来的活动策划和市场营销。 8. 客户支持:提供良好的客户支持服务,包括对购票过程中的问题和疑问进行及时解答。确保您的客服团队能够有效应对与活动票务和门禁相关的问题。 这些建议可根据您的具体活动需求进行调整。确保在活动前充分测试和准备所采用的票务和门禁管理系统,以确保活动的顺利进行。
2
当然可以!以下是对活动票务和门禁管理的一些建议: 1. 制定清晰的票务政策:确保您的票务政策明确,包括票价、售票时间、退票和换票规定等。确保您的票务政策对用户友好,并有助于解决任何票务问题。 2. 提供多种购票方式:为了方便用户购票,您可以提供多种购票方式,例如在线购票、电话购票、现场购票等。同时,为了满足不同用户的需求,您还可以提供不同类型的门票,例如普通门票、贵宾门票、团体门票等。 3. 设立清晰的门禁规则:在活动现场设立清晰的门禁规则,确保只有持有有效门票的人才能进入活动现场。对于不同类型的门票,可以设置不同的门禁规则,例如贵宾门票可以享受优先入场等特权。 4. 使用智能门禁系统:使用智能门禁系统可以提高安全性并减少人工门禁的错误。该系统可以通过读取电子门票或生物识别技术来确认持票人的身份,并控制人员的进出。 5. 培训工作人员:为了确保活动票务和门禁管理的顺利进行,您需要培训专业的工作人员。他们需要了解您的票务政策和门禁规则,并能够有效地处理各种票务和门禁问题。 6. 建立应急计划:在活动举办之前,制定一份详细的应急计划,以应对可能出现的问题。例如,如果电子门禁系统出现故障,您需要有一个备用计划来确保门票的入场顺利进行。 7. 监控和评估:在活动结束后,回顾并评估您的票务和门禁管理流程。了解哪些方面做得好,哪些方面需要改进。这样可以帮助您为未来的活动做好更充分的准备。 总之,活动票务和门禁管理是一个非常重要的环节,需要您制定详细的计划并采取有效的措施来确保其顺利进行。希望以上建议能对您有所帮助!
1
当然可以。活动票务和门禁管理是确保活动顺利进行的关键环节。以下是一些建议: 1. 选择合适的票务系统:选择一个可靠且易于使用的票务系统。确保系统支持在线购票、退票和换票等功能。此外,还要确保系统具有足够的安全性,以防止欺诈和虚假购票。 2. 设定合理的票价和优惠政策:根据活动的规模、类型和目标受众设定合理的票价。同时,可以提供一些优惠政策,如早鸟票、团体票或学生票,以吸引更多观众。 3. 提供多种购票渠道:为了方便观众购票,可以提供多种购票渠道,如官方网站、手机应用、实体售票点等。 4. 实名制购票:实行实名制购票有助于提高活动的安全性,防止黄牛票和虚假购票。同时,实名制购票也有助于收集观众信息,以便进行后续的营销和推广活动。 5. 设立门禁系统:为了确保活动现场的安全,应设立门禁系统。门禁系统可以包括电子门票验证、安全检查、身份证件查验等环节。 6. 提高入场效率:通过优化入场流程,提高入场效率。例如,可以设置多个入场通道、提供快速验证设备、提前开放入场时间等。 7. 培训工作人员:确保票务和门禁管理人员接受充分的培训,熟悉票务系统和门禁设备,以便在活动期间提供高效、专业的服务。 8. 应急预案:制定应急预案,以应对可能出现的问题,如系统故障、人员拥挤等。确保有足够的备选方案,以确保活动的顺利进行。 9. 数据分析与反馈:在活动结束后,收集并分析票务和门禁管理的相关数据,以便了解活动的受欢迎程度、入场效率等方面的表现。根据反馈信息,不断优化票务和门禁管理流程。 通过遵循以上建议,您可以提高活动票务和门禁管理的效率,确保活动的顺利进行。
3
当涉及到活动票务和门禁管理时,以下是一些可能有用的建议: 1. 确保所有参与者都有一个有效的门票或入场券。这可以通过使用电子票或二维码来实现。 2. 为每个入口设置唯一的标识符,以确保只有授权人员能够进入场地。 3. 对于需要验证身份的区域(例如VIP区),应提供额外的安全措施,如金属探测器或指纹扫描仪等。 4. 定期检查设备并进行维护保养,以防止故障发生。 5. 制定应急计划,以便在紧急情况下快速响应和解决问题。
4 wenxin > gpt3 > minmax > luca
(标注员填写示例)

8.2 填写逻辑说明

  • 若 wenxin 回答覆盖票务政策、门禁规则、应急预案、人员培训,且细节最完整,可排第一
  • 若 gpt3 内容完整但缺少部分细节,可排第二
  • 若 minmax 结构清晰但信息覆盖略少,可排第三
  • 若 luca 仅给出少量笼统建议,实用性较弱,可排末位
💡
备注示例:
Top1:wenxin 结构完整,覆盖关键环节,实用性最强。
末位:luca 信息过少,仅给笼统建议,缺少可执行细节。
通用大模型 RLHF · 奖励模型(RM)项目 · 标注规则文档 v1.1 · 内部使用,请勿外传
已适配 Excel 偏好排序格式 · 建议用于内部培训、正式执行与质检复盘 · 最后更新:2026-03-18