通用大模型 RLHF · 奖励模型(RM)项目标注规则文档
本版本已根据实际 Excel 标注表结构完成修订。文档重点从「抽象 response_A~F 排序」调整为「固定模型列 + 排序位 + reward顺序」的实际标注模式,便于标注员直接按表执行,也便于质检员做一致性核查与数据回收。
1.1 项目背景
RLHF(Reinforcement Learning from Human Feedback)是通用大语言模型对齐人类偏好的核心路径。其流程通常为:SFT → 训练奖励模型(RM)→ PPO 强化学习。RM 的核心职责,是将人类对候选回答的主观偏好转化为可训练的标量信号,使模型进一步朝着「更有帮助、更可靠、更符合人类偏好」的方向优化。
语言模型默认优化的是 next-token 预测损失,但「好答案」并不等于「高概率答案」。两者之间存在天然 gap。RM 的任务,就是把这个 gap 用偏好排序数据显式表达出来。
1.2 项目目标
- 构建覆盖多模型、多任务场景的偏好排序数据集(Preference Dataset)
- 让标注结果稳定反映「通用回答质量」的人类偏好,覆盖 9 大评估维度
- 通过多人标注与一致性验证控制质量,最终可用率不低于 85%
- 为奖励模型提供可直接拆解的偏好顺序与 (chosen, rejected) 数据
2.1 数据来源
针对同一个 question,使用多个大语言模型分别生成回答,形成质量存在梯度差异的候选集合,再由人工进行偏好排序。当前常见模型来源包括 OpenAI、文心、通义、豆包及其他模型,另可辅以人工补充理想回答。
2.2 数据总量级
| 指标 | 数量 | 说明 |
|---|---|---|
| 原始 Prompt / Question 数 | 约 30,000 条 | 覆盖 20+ 任务类别 |
| 每条候选回答数 | 4~6 个 | 来自不同模型,存在质量梯度 |
| 排序任务组数 | 约 30,000 组 | 每组需完成完整排序 |
| 最终可用偏好对 | 约 150,000 对 | 由完整顺序自动拆解得到 |
2.3 输入 / 输出形式(Excel 版)
本项目采用 Excel 表格进行标注。每一行对应 1 条独立偏好排序任务。输入字段不再使用抽象的 response_A~F,而是固定模型列 + 排序位列。
| 字段名 | 说明 | 填写规范 |
|---|---|---|
| question | 用户问题 / 指令内容 | 只读 |
| gpt3 / wenxin / minmax / luca | 不同模型针对同一 question 的候选回答 | 只读 |
| 排序位 | 对应模型回答的名次填写栏,1 为最好 | 标注员填 |
| reward顺序 | 最终从优到劣的完整偏好顺序 | 标注员填 如:gpt3 > wenxin > minmax > luca |
| tie_flag | 是否存在并列 | 标注员填 Y / N |
| hard_case | 是否为难例 | 标注员填 Y / N |
| note | Top1 与末位核心理由 | 标注员填 50 字以内 |
3.1 人员构成
| 角色 | 人数 | 主要职责 |
|---|---|---|
| 项目负责人(PM) | 1 | 规则制定、进度管控、对外沟通 |
| 资深标注员(Lead) | 3 | 难 case 仲裁、规则迭代、新人培训 |
| 标注员 | 20 | 执行排序任务,每条数据 3 人独立标注 |
| 质检员 | 5 | 一致性审核、抽检、复议、返工跟进 |
3.2 人效预估
总数据量 30,000 组,每条需 3 人独立标注,总任务量约 90,000 人次任务。按 7 周正式标注、20 名标注员测算,每人每日需完成约 125~150 条,熟练后合理区间约 129 条/天。
4.1 标注基本原则
标注员必须仅依据回答内容本身进行判断,不得因模型名称、个人既有印象或先验偏好影响排序。即使某模型历史表现较好,也不得默认排前;即使某模型历史表现较差,也不得默认排后。
4.2 9 大评估维度
| 维度 | 核心解释 | 判断重点 |
|---|---|---|
| ① 响应需求 | 是否真正回答用户问题,是否满足格式/语言/字数等要求 | 先看是否「对题」 |
| ② 事实正确 | 事实、数字、时间、概念是否正确,是否存在幻觉 | 流畅但错误仍排低 |
| ③ 基础质量 | 完整性、一致性、安全性 | 截断、矛盾、有害内容直接降末位 |
| ④ 信息丰富度 | 是否多角度覆盖有效信息 | 有效信息多于空话堆砌 |
| ⑤ 实用性 | 能否直接用于现实场景 | 能落地执行优于泛泛建议 |
| ⑥ 创造性 | 是否有新意、表达灵活、有启发 | 主要用于创作类 prompt |
| ⑦ 专业度 | 专业术语、知识深度、领域把握 | 专业且准确才加分 |
| ⑧ 表达水平 | 结构、逻辑、语气、语言艺术 | 清晰得体优于堆砌修辞 |
| ⑨ 排版 | 分段、编号、标点、可读性 | 加分项,不能替代内容质量 |
4.3 开放式建议类问题的重点判断原则
- 优先看覆盖完整性:是否涵盖该场景下的关键方面
- 优先看可执行性:是否给出可落地的方法、机制、步骤
- 优先看细节支撑:是否说明怎么做、为什么、出了问题怎么办
- 避免空话:语言再流畅,若仅是常识堆砌,仍应排低位
5.1 单条数据完整操作流程
阅读并理解 question
识别任务类型与格式要求。
快速浏览全部候选回答
形成初步优劣感知。
先做基础合规筛查
识别明显末位候选(响应需求、事实正确、基础质量)。
按 9 大维度逐项对比
记录关键差异点。
形成完整排序
先确定 Top1 与 Last,再排中间位。
填写 Excel 字段
填写每个回答「排序位」,再填写 reward顺序。
填写 note 与标记
填写 Top1 与末位核心理由;若 5 分钟仍难判断,标记 hard_case=Y。
5.2 排序填写规范
本项目采用「单回答填写排序位 + 全组填写 reward顺序」的双记录方式。
- 排序位:1 = 本组最佳,数字越大越靠后
- reward顺序:按模型名从优到劣填写,如
wenxin > gpt3 > luca > minmax - 排序位与 reward顺序必须完全一致
- 若存在并列,需设置 tie_flag=Y,并在 reward顺序 中用 = 表示
5.3 Excel 填写操作要求
- 不得修改原始 question 与各模型回答内容
- 排序位必须填写阿拉伯数字
- reward顺序 中模型名称必须与表头一致,不得改写
- 不得留空:排序位、reward顺序、Top1 与末位 note 均不得缺失
- 若回答为空白、截断、乱码或明显异常,原则上直接排末位并备注说明
| 情况类型 | 处理方式 |
|---|---|
| 所有回答都很差 | 仍需给出相对排序,选「最不差」的排第一,并在 note 中注明整体质量偏低 |
| 某回答含有害内容 | 直接排末位,在 note 中注明有害类型,并使用系统 flag 上报 |
| Prompt / Question 本身疑似违规 | note 标注「Prompt 疑似违规」,提交后通知质检员 |
| 回答过长 | 需关注信息密度,不可因长度自动给高分 |
| 难以判断 | 思考超过 5 分钟仍无法确定,标记 hard_case=Y,提交当前最优判断 |
7.1 质检流程概览
| 阶段 | 质检类型 | 触发条件 | 处理方式 |
|---|---|---|---|
| T+0 | 日常抽检 | 每日标注完成后随机抽 10% | 质检员独立重排并对比 |
| 触发型 | Hard Case 二审 | hard_case=Y | 质检员 + 资深标注员复议 |
| 周度 | 一致性审核 | 每周全量统计 | 按 Kendall's τ 评估,低于阈值退回 |
| 触发型 | 人效异常审核 | 速度异常快或慢 | 提高抽检比例至 30% |
7.2 关键质检口径
- 检查不同标注员之间排序是否一致
- 检查单份标注内部是否自洽:排序位、reward顺序、note 三者不得矛盾
- 检查是否存在明显模型名偏见、机械排序、随机排序嫌疑
7.3 质检判定标准
| 质检维度 | 判定标准 | 合格线 | 不合格处理 |
|---|---|---|---|
| 排序方向性 | Top1 与 Last 判断基本一致 | ≥ 90% | 警告 + 培训 |
| 有害内容识别 | 有害内容是否正确排末位 | 100% | 立即暂停上报 |
| note 质量 | Top1 与末位说明是否有效 | ≥ 85% | 退回补填 |
| 表内逻辑一致性 | 排序位、reward顺序、备注三者一致 | 100% | 退回重填 |
| 整体一致率 | Kendall's τ 相关系数 | τ ≥ 0.7 | 追加抽检比例 |
8.1 Excel 单行示例
以下为实际 Excel 表格的单行结构示意(列之间为制表符分隔):
| question | gpt3 | 排序位 | wenxin | 排序位 | minmax | 排序位 | luca | 排序位 | reward顺序 |
|---|---|---|---|---|---|---|---|---|---|
| 你能提供对活动票务和门禁管理的建议吗? |
当涉及到活动票务和门禁管理时,以下是一些建议:
1. 网上售票平台:考虑使用在线票务平台,例如Eventbrite、猫眼票务等。这些平台可以帮助您方便地管理活动的票务销售、座位分配和门票验证。
2. 电子门票:推荐使用电子门票系统。通过将门票发送到参与者的电子邮件或手机上,您可以减少打印和分发实体门票的成本,同时提高入场流程的效率。
3. 二维码扫描:使用二维码扫描技术进行门禁管理。参与者在入场时出示电子门票上的二维码,工作人员可以使用扫描设备轻松验证门票的有效性。
4. 人工验证:如果使用二维码扫描不可行,您可以雇佣工作人员进行手动门票验证。请确保工作人员接受充分的培训,以便准确检查门票并避免欺诈行为。
5. 安全措施:采取必要的安全措施来防止票务欺诈和门票盗版。这可能包括使用防伪措施,例如特殊印刷或水印,并确保门票只能在指定的入口处使用。
6. 人流管理:对于大型活动,考虑实施人流管理措施,以确保顺畅的入场和出场流程。这可能包括分配入口通道、设立检票点和禁止无票者进入活动场地。
7. 数据分析:利用票务系统提供的数据分析功能,深入了解参与者的购票模式、偏好和参与度。这将有助于您优化未来的活动策划和市场营销。
8. 客户支持:提供良好的客户支持服务,包括对购票过程中的问题和疑问进行及时解答。确保您的客服团队能够有效应对与活动票务和门禁相关的问题。
这些建议可根据您的具体活动需求进行调整。确保在活动前充分测试和准备所采用的票务和门禁管理系统,以确保活动的顺利进行。
|
2 |
当然可以!以下是对活动票务和门禁管理的一些建议:
1. 制定清晰的票务政策:确保您的票务政策明确,包括票价、售票时间、退票和换票规定等。确保您的票务政策对用户友好,并有助于解决任何票务问题。
2. 提供多种购票方式:为了方便用户购票,您可以提供多种购票方式,例如在线购票、电话购票、现场购票等。同时,为了满足不同用户的需求,您还可以提供不同类型的门票,例如普通门票、贵宾门票、团体门票等。
3. 设立清晰的门禁规则:在活动现场设立清晰的门禁规则,确保只有持有有效门票的人才能进入活动现场。对于不同类型的门票,可以设置不同的门禁规则,例如贵宾门票可以享受优先入场等特权。
4. 使用智能门禁系统:使用智能门禁系统可以提高安全性并减少人工门禁的错误。该系统可以通过读取电子门票或生物识别技术来确认持票人的身份,并控制人员的进出。
5. 培训工作人员:为了确保活动票务和门禁管理的顺利进行,您需要培训专业的工作人员。他们需要了解您的票务政策和门禁规则,并能够有效地处理各种票务和门禁问题。
6. 建立应急计划:在活动举办之前,制定一份详细的应急计划,以应对可能出现的问题。例如,如果电子门禁系统出现故障,您需要有一个备用计划来确保门票的入场顺利进行。
7. 监控和评估:在活动结束后,回顾并评估您的票务和门禁管理流程。了解哪些方面做得好,哪些方面需要改进。这样可以帮助您为未来的活动做好更充分的准备。
总之,活动票务和门禁管理是一个非常重要的环节,需要您制定详细的计划并采取有效的措施来确保其顺利进行。希望以上建议能对您有所帮助!
|
1 |
当然可以。活动票务和门禁管理是确保活动顺利进行的关键环节。以下是一些建议:
1. 选择合适的票务系统:选择一个可靠且易于使用的票务系统。确保系统支持在线购票、退票和换票等功能。此外,还要确保系统具有足够的安全性,以防止欺诈和虚假购票。
2. 设定合理的票价和优惠政策:根据活动的规模、类型和目标受众设定合理的票价。同时,可以提供一些优惠政策,如早鸟票、团体票或学生票,以吸引更多观众。
3. 提供多种购票渠道:为了方便观众购票,可以提供多种购票渠道,如官方网站、手机应用、实体售票点等。
4. 实名制购票:实行实名制购票有助于提高活动的安全性,防止黄牛票和虚假购票。同时,实名制购票也有助于收集观众信息,以便进行后续的营销和推广活动。
5. 设立门禁系统:为了确保活动现场的安全,应设立门禁系统。门禁系统可以包括电子门票验证、安全检查、身份证件查验等环节。
6. 提高入场效率:通过优化入场流程,提高入场效率。例如,可以设置多个入场通道、提供快速验证设备、提前开放入场时间等。
7. 培训工作人员:确保票务和门禁管理人员接受充分的培训,熟悉票务系统和门禁设备,以便在活动期间提供高效、专业的服务。
8. 应急预案:制定应急预案,以应对可能出现的问题,如系统故障、人员拥挤等。确保有足够的备选方案,以确保活动的顺利进行。
9. 数据分析与反馈:在活动结束后,收集并分析票务和门禁管理的相关数据,以便了解活动的受欢迎程度、入场效率等方面的表现。根据反馈信息,不断优化票务和门禁管理流程。
通过遵循以上建议,您可以提高活动票务和门禁管理的效率,确保活动的顺利进行。
|
3 |
当涉及到活动票务和门禁管理时,以下是一些可能有用的建议:
1. 确保所有参与者都有一个有效的门票或入场券。这可以通过使用电子票或二维码来实现。
2. 为每个入口设置唯一的标识符,以确保只有授权人员能够进入场地。
3. 对于需要验证身份的区域(例如VIP区),应提供额外的安全措施,如金属探测器或指纹扫描仪等。
4. 定期检查设备并进行维护保养,以防止故障发生。
5. 制定应急计划,以便在紧急情况下快速响应和解决问题。
|
4 | wenxin > gpt3 > minmax > luca (标注员填写示例) |
8.2 填写逻辑说明
- 若 wenxin 回答覆盖票务政策、门禁规则、应急预案、人员培训,且细节最完整,可排第一
- 若 gpt3 内容完整但缺少部分细节,可排第二
- 若 minmax 结构清晰但信息覆盖略少,可排第三
- 若 luca 仅给出少量笼统建议,实用性较弱,可排末位
Top1:wenxin 结构完整,覆盖关键环节,实用性最强。
末位:luca 信息过少,仅给笼统建议,缺少可执行细节。
已适配 Excel 偏好排序格式 · 建议用于内部培训、正式执行与质检复盘 · 最后更新:2026-03-18