通用大模型 RLHF · 奖励模型（RM）项目

1

项目背景与目标

1.1 项目背景

RLHF（Reinforcement Learning from Human Feedback）是通用大语言模型对齐人类偏好的核心路径。其流程通常为：SFT → 训练奖励模型（RM）→ PPO 强化学习。RM 的核心职责，是将人类对候选回答的主观偏好转化为可训练的标量信号，使模型进一步朝着「更有帮助、更可靠、更符合人类偏好」的方向优化。

语言模型默认优化的是 next-token 预测损失，但「好答案」并不等于「高概率答案」。两者之间存在天然 gap。RM 的任务，就是把这个 gap 用偏好排序数据显式表达出来。

✓

完整排序结果将被自动拆解为多个 (chosen, rejected) 偏好对，作为奖励模型训练输入。因此，排序质量会直接影响 RM 的学习效果。

1.2 项目目标

构建覆盖多模型、多任务场景的偏好排序数据集（Preference Dataset）
让标注结果稳定反映「通用回答质量」的人类偏好，覆盖 9 大评估维度
通过多人标注与一致性验证控制质量，最终可用率不低于 85%
为奖励模型提供可直接拆解的偏好顺序与 (chosen, rejected) 数据

2

数据概览

2.1 数据来源

针对同一个 question，使用多个大语言模型分别生成回答，形成质量存在梯度差异的候选集合，再由人工进行偏好排序。当前常见模型来源包括 OpenAI、文心、通义、豆包及其他模型，另可辅以人工补充理想回答。

2.2 数据总量级

原始 Prompt 数

30,000

条（覆盖 20+ 任务类别）

每题候选回答

4–6

个（来自不同模型）

最终偏好对

150,000+

对（由完整顺序拆解）

目标可用率

≥ 85%

通过质检比例

指标	数量	说明
原始 Prompt / Question 数	约 30,000 条	覆盖 20+ 任务类别
每条候选回答数	4～6 个	来自不同模型，存在质量梯度
排序任务组数	约 30,000 组	每组需完成完整排序
最终可用偏好对	约 150,000 对	由完整顺序自动拆解得到

2.3 输入 / 输出形式（Excel 版）

本项目采用 Excel 表格进行标注。每一行对应 1 条独立偏好排序任务。输入字段不再使用抽象的 response_A~F，而是固定模型列 + 排序位列。

字段名	说明	填写规范
question	用户问题 / 指令内容	只读
gpt3 / wenxin / minmax / luca	不同模型针对同一 question 的候选回答	只读
排序位	对应模型回答的名次填写栏，1 为最好	标注员填
reward顺序	最终从优到劣的完整偏好顺序	标注员填如：gpt3 > wenxin > minmax > luca
tie_flag	是否存在并列	标注员填 Y / N
hard_case	是否为难例	标注员填 Y / N
note	Top1 与末位核心理由	标注员填 50 字以内

⚠

关键要求：「排序位」与「reward顺序」必须严格一致；若两者矛盾，则该条标注无效，退回重填。

Excel 标注固定模型列排序位校验 reward 顺序核心

3

人力配置与人效

3.1 人员构成

项目负责人（PM）

1

规则制定、进度管控

资深标注员（Lead）

3

难 case 仲裁、新人培训

标注员

20

每条数据 3 人独立标注

质检员

5

一致性审核、抽检、返工

角色	人数	主要职责
项目负责人（PM）	1	规则制定、进度管控、对外沟通
资深标注员（Lead）	3	难 case 仲裁、规则迭代、新人培训
标注员	20	执行排序任务，每条数据 3 人独立标注
质检员	5	一致性审核、抽检、复议、返工跟进

3.2 人效预估

总数据量 30,000 组，每条需 3 人独立标注，总任务量约 90,000 人次任务。按 7 周正式标注、20 名标注员测算，每人每日需完成约 125～150 条，熟练后合理区间约 129 条/天。

4

标注规则（9 大维度）

🔴

基础合规类为最高优先级：若回答在「响应需求」「事实正确」「基础质量」任一维度存在严重问题，可直接判为末位，无需再依赖其他维度拉分。

4.1 标注基本原则

标注员必须仅依据回答内容本身进行判断，不得因模型名称、个人既有印象或先验偏好影响排序。即使某模型历史表现较好，也不得默认排前；即使某模型历史表现较差，也不得默认排后。

4.2 9 大评估维度

维度	核心解释	判断重点
① 响应需求	是否真正回答用户问题，是否满足格式/语言/字数等要求	先看是否「对题」
② 事实正确	事实、数字、时间、概念是否正确，是否存在幻觉	流畅但错误仍排低
③ 基础质量	完整性、一致性、安全性	截断、矛盾、有害内容直接降末位
④ 信息丰富度	是否多角度覆盖有效信息	有效信息多于空话堆砌
⑤ 实用性	能否直接用于现实场景	能落地执行优于泛泛建议
⑥ 创造性	是否有新意、表达灵活、有启发	主要用于创作类 prompt
⑦ 专业度	专业术语、知识深度、领域把握	专业且准确才加分
⑧ 表达水平	结构、逻辑、语气、语言艺术	清晰得体优于堆砌修辞
⑨ 排版	分段、编号、标点、可读性	加分项，不能替代内容质量

4.3 开放式建议类问题的重点判断原则

优先看覆盖完整性：是否涵盖该场景下的关键方面
优先看可执行性：是否给出可落地的方法、机制、步骤
优先看细节支撑：是否说明怎么做、为什么、出了问题怎么办
避免空话：语言再流畅，若仅是常识堆砌，仍应排低位

5

标注策略与填写规则

ℹ

本节为完整操作流程，请严格按步骤执行，不可跳步。所有结果填入 Excel 表格对应字段。

5.1 单条数据完整操作流程

1

阅读并理解 question

识别任务类型与格式要求。

2

快速浏览全部候选回答

形成初步优劣感知。

3

先做基础合规筛查

识别明显末位候选（响应需求、事实正确、基础质量）。

4

按 9 大维度逐项对比

记录关键差异点。

5

形成完整排序

先确定 Top1 与 Last，再排中间位。

6

填写 Excel 字段

填写每个回答「排序位」，再填写 reward顺序。

7

填写 note 与标记

填写 Top1 与末位核心理由；若 5 分钟仍难判断，标记 hard_case=Y。

5.2 排序填写规范

本项目采用「单回答填写排序位 + 全组填写 reward顺序」的双记录方式。

排序位：1 = 本组最佳，数字越大越靠后
reward顺序：按模型名从优到劣填写，如 wenxin > gpt3 > luca > minmax
排序位与 reward顺序必须完全一致
若存在并列，需设置 tie_flag=Y，并在 reward顺序中用 = 表示

5.3 Excel 填写操作要求

不得修改原始 question 与各模型回答内容
排序位必须填写阿拉伯数字
reward顺序中模型名称必须与表头一致，不得改写
不得留空：排序位、reward顺序、Top1 与末位 note 均不得缺失
若回答为空白、截断、乱码或明显异常，原则上直接排末位并备注说明

6

特殊情况处理

情况类型	处理方式
所有回答都很差	仍需给出相对排序，选「最不差」的排第一，并在 note 中注明整体质量偏低
某回答含有害内容	直接排末位，在 note 中注明有害类型，并使用系统 flag 上报
Prompt / Question 本身疑似违规	note 标注「Prompt 疑似违规」，提交后通知质检员
回答过长	需关注信息密度，不可因长度自动给高分
难以判断	思考超过 5 分钟仍无法确定，标记 hard_case=Y，提交当前最优判断

7

质检标准

7.1 质检流程概览

阶段	质检类型	触发条件	处理方式
T+0	日常抽检	每日标注完成后随机抽 10%	质检员独立重排并对比
触发型	Hard Case 二审	hard_case=Y	质检员 + 资深标注员复议
周度	一致性审核	每周全量统计	按 Kendall's τ 评估，低于阈值退回
触发型	人效异常审核	速度异常快或慢	提高抽检比例至 30%

7.2 关键质检口径

检查不同标注员之间排序是否一致
检查单份标注内部是否自洽：排序位、reward顺序、note 三者不得矛盾
检查是否存在明显模型名偏见、机械排序、随机排序嫌疑

7.3 质检判定标准

质检维度	判定标准	合格线	不合格处理
排序方向性	Top1 与 Last 判断基本一致	≥ 90%	警告 + 培训
有害内容识别	有害内容是否正确排末位	100%	立即暂停上报
note 质量	Top1 与末位说明是否有效	≥ 85%	退回补填
表内逻辑一致性	排序位、reward顺序、备注三者一致	100%	退回重填
整体一致率	Kendall's τ 相关系数	τ ≥ 0.7	追加抽检比例

8

案例与填写示例

8.1 Excel 单行示例

以下为实际 Excel 表格的单行结构示意（列之间为制表符分隔）：

question	gpt3	排序位	wenxin	排序位	minmax	排序位	luca	排序位	reward顺序
你能提供对活动票务和门禁管理的建议吗？	当涉及到活动票务和门禁管理时，以下是一些建议： 1. 网上售票平台：考虑使用在线票务平台，例如Eventbrite、猫眼票务等。这些平台可以帮助您方便地管理活动的票务销售、座位分配和门票验证。 2. 电子门票：推荐使用电子门票系统。通过将门票发送到参与者的电子邮件或手机上，您可以减少打印和分发实体门票的成本，同时提高入场流程的效率。 3. 二维码扫描：使用二维码扫描技术进行门禁管理。参与者在入场时出示电子门票上的二维码，工作人员可以使用扫描设备轻松验证门票的有效性。 4. 人工验证：如果使用二维码扫描不可行，您可以雇佣工作人员进行手动门票验证。请确保工作人员接受充分的培训，以便准确检查门票并避免欺诈行为。 5. 安全措施：采取必要的安全措施来防止票务欺诈和门票盗版。这可能包括使用防伪措施，例如特殊印刷或水印，并确保门票只能在指定的入口处使用。 6. 人流管理：对于大型活动，考虑实施人流管理措施，以确保顺畅的入场和出场流程。这可能包括分配入口通道、设立检票点和禁止无票者进入活动场地。 7. 数据分析：利用票务系统提供的数据分析功能，深入了解参与者的购票模式、偏好和参与度。这将有助于您优化未来的活动策划和市场营销。 8. 客户支持：提供良好的客户支持服务，包括对购票过程中的问题和疑问进行及时解答。确保您的客服团队能够有效应对与活动票务和门禁相关的问题。这些建议可根据您的具体活动需求进行调整。确保在活动前充分测试和准备所采用的票务和门禁管理系统，以确保活动的顺利进行。	2	当然可以！以下是对活动票务和门禁管理的一些建议： 1. 制定清晰的票务政策：确保您的票务政策明确，包括票价、售票时间、退票和换票规定等。确保您的票务政策对用户友好，并有助于解决任何票务问题。 2. 提供多种购票方式：为了方便用户购票，您可以提供多种购票方式，例如在线购票、电话购票、现场购票等。同时，为了满足不同用户的需求，您还可以提供不同类型的门票，例如普通门票、贵宾门票、团体门票等。 3. 设立清晰的门禁规则：在活动现场设立清晰的门禁规则，确保只有持有有效门票的人才能进入活动现场。对于不同类型的门票，可以设置不同的门禁规则，例如贵宾门票可以享受优先入场等特权。 4. 使用智能门禁系统：使用智能门禁系统可以提高安全性并减少人工门禁的错误。该系统可以通过读取电子门票或生物识别技术来确认持票人的身份，并控制人员的进出。 5. 培训工作人员：为了确保活动票务和门禁管理的顺利进行，您需要培训专业的工作人员。他们需要了解您的票务政策和门禁规则，并能够有效地处理各种票务和门禁问题。 6. 建立应急计划：在活动举办之前，制定一份详细的应急计划，以应对可能出现的问题。例如，如果电子门禁系统出现故障，您需要有一个备用计划来确保门票的入场顺利进行。 7. 监控和评估：在活动结束后，回顾并评估您的票务和门禁管理流程。了解哪些方面做得好，哪些方面需要改进。这样可以帮助您为未来的活动做好更充分的准备。总之，活动票务和门禁管理是一个非常重要的环节，需要您制定详细的计划并采取有效的措施来确保其顺利进行。希望以上建议能对您有所帮助！	1	当然可以。活动票务和门禁管理是确保活动顺利进行的关键环节。以下是一些建议： 1. 选择合适的票务系统：选择一个可靠且易于使用的票务系统。确保系统支持在线购票、退票和换票等功能。此外，还要确保系统具有足够的安全性，以防止欺诈和虚假购票。 2. 设定合理的票价和优惠政策：根据活动的规模、类型和目标受众设定合理的票价。同时，可以提供一些优惠政策，如早鸟票、团体票或学生票，以吸引更多观众。 3. 提供多种购票渠道：为了方便观众购票，可以提供多种购票渠道，如官方网站、手机应用、实体售票点等。 4. 实名制购票：实行实名制购票有助于提高活动的安全性，防止黄牛票和虚假购票。同时，实名制购票也有助于收集观众信息，以便进行后续的营销和推广活动。 5. 设立门禁系统：为了确保活动现场的安全，应设立门禁系统。门禁系统可以包括电子门票验证、安全检查、身份证件查验等环节。 6. 提高入场效率：通过优化入场流程，提高入场效率。例如，可以设置多个入场通道、提供快速验证设备、提前开放入场时间等。 7. 培训工作人员：确保票务和门禁管理人员接受充分的培训，熟悉票务系统和门禁设备，以便在活动期间提供高效、专业的服务。 8. 应急预案：制定应急预案，以应对可能出现的问题，如系统故障、人员拥挤等。确保有足够的备选方案，以确保活动的顺利进行。 9. 数据分析与反馈：在活动结束后，收集并分析票务和门禁管理的相关数据，以便了解活动的受欢迎程度、入场效率等方面的表现。根据反馈信息，不断优化票务和门禁管理流程。通过遵循以上建议，您可以提高活动票务和门禁管理的效率，确保活动的顺利进行。	3	当涉及到活动票务和门禁管理时，以下是一些可能有用的建议： 1. 确保所有参与者都有一个有效的门票或入场券。这可以通过使用电子票或二维码来实现。 2. 为每个入口设置唯一的标识符，以确保只有授权人员能够进入场地。 3. 对于需要验证身份的区域（例如VIP区），应提供额外的安全措施，如金属探测器或指纹扫描仪等。 4. 定期检查设备并进行维护保养，以防止故障发生。 5. 制定应急计划，以便在紧急情况下快速响应和解决问题。	4	wenxin > gpt3 > minmax > luca （标注员填写示例）

8.2 填写逻辑说明

若 wenxin 回答覆盖票务政策、门禁规则、应急预案、人员培训，且细节最完整，可排第一
若 gpt3 内容完整但缺少部分细节，可排第二
若 minmax 结构清晰但信息覆盖略少，可排第三
若 luca 仅给出少量笼统建议，实用性较弱，可排末位

💡

备注示例：
Top1：wenxin 结构完整，覆盖关键环节，实用性最强。
末位：luca 信息过少，仅给笼统建议，缺少可执行细节。

通用大模型 RLHF · 奖励模型（RM）项目标注规则文档

1.1 项目背景

1.2 项目目标

2.1 数据来源

2.2 数据总量级

2.3 输入 / 输出形式（Excel 版）

3.1 人员构成

3.2 人效预估

4.1 标注基本原则

4.2 9 大评估维度

4.3 开放式建议类问题的重点判断原则

5.1 单条数据完整操作流程

阅读并理解 question

快速浏览全部候选回答

先做基础合规筛查

按 9 大维度逐项对比

形成完整排序

填写 Excel 字段

填写 note 与标记

5.2 排序填写规范

5.3 Excel 填写操作要求

7.1 质检流程概览

7.2 关键质检口径

7.3 质检判定标准

8.1 Excel 单行示例

8.2 填写逻辑说明