OpenAI的强化微调:RL+Science 创造新神还是灭霸?
呆板之心转载起源:知乎王梦迪]article_adlist-->2024 年 12 月 6 号加州时光上午 11 点,OpenAI 宣布了新的 Reinforcement Finetuning 方式,用于结构专家模子。对特定范畴的决议成绩,比方医疗诊断、常见病诊断等等,只要要上传多少十到多少千条练习案例,就能够经由过程微调来找到最有的决议。数据的情势相似于 instructiong tuning 的罕见情势,有多个选项以及准确选项。统一时光,OpenAI 还宣布了一个强化微调研讨名目,激励学者专家们上传本人范畴的奇特数据,测试他们的强化微调才能。1这个成果很美丽,用的技巧恰是曾经普遍利用于 alignment, math, coding 范畴的方式,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐年夜模子与人类偏好性数据,练习数据的情势为(成绩,答复 1,答复 2,偏好),让用户抉择更爱好的答复,进修人类的偏好,练习嘉奖模子(reward model)。给定 reward model 之后,用强化进修算法 (PPO, DPO)来微调模子参数,微调后的模子更轻易天生用户爱好的内容。当求解 math 跟 coding 成绩时,每个成绩都有准确谜底。这时能够用 MCTS 等 RL 方式,天生大批的差别的求解轨迹,有的准确有的过错,用答复准确的轨迹做 SFT,或许用(准确解法,过错解法)的组合来做 RLHF。更进一步,能够把轨迹天生跟 RLHF 微调这两步迭代起来,一直调剂 reference policy,迭代一直进步准确率,如 GRPo 或 SPPO 等。2OpenAI 的 RFT 只要要很多数据,就能再一些专家场景中,学会医疗诊断跟迷信决议,这个方式实质上仍是 CoT+RL,此中 CoT 这步能够 brainstorm 加强天生多样的差别推理门路,而后依据答对不来停止打分,再持续做 RL 微调而且迭代。CoT 能够是把一系列的迷信 / 医疗知识串联起来。这些知识来自预练习。难点在于怎样界说什么是 RL 里的 state-transition, 也即一步的头脑推理。每一步 state transition 是年夜模子曾经学到的迷信知识,再用 RL 找到通向高分的完全链路。要害成绩是怎样做到 token-level 跟 full-response level RL 直接找到均衡点,也即怎样描写”state”。token-level 的微调效力太低、不轻易泛化;full-response level 又会含糊了推理的进程。更 fundamental 的成绩是:何找到头脑链外面的 “state” 呢,头脑的 state representation 是不是曾经在预练习里出现出来了?有了适合的 state representation,RFT 就能够 easy, stable and robust。3Demo 里也能看出这个技巧现阶段的范围性。常见病排查,从医学角度主要,然而确切已知的迷信,并且是已知迷信成绩中最简略的一类。常见病的诊断每每有清楚的基因指标,跟绝对流程化的判断门路。之以是能用很少的数据就学会这个诊断进程,是由于良多人类专家义务的 know-how 实在是简略的决议树,多少十个案例就足以席卷底层逻辑。这类成绩实质是多项抉择题,只有抉择无限,差别选项之间辨别度年夜就很轻易控制。这个 demo 还躲避了 RLHF 里最难搞的 reward modeling 步调,随意设定一个打分函数就能用,比方准确谜底给 1 分,过错谜底 0 分。但是真正的迷信成绩,每每不是有牢固选项的抉择题,不尺度谜底,怎样界说 action,怎样界说成绩该怎样问,怎样给新的迷信观点一个界说一个名字,这才是第一流也最有挑衅的迷信困难。迷信的数据也每每是 noisy 的,不是简略的多选题,不清楚的决议树。4讲完了技巧的潜力,咱们来探讨危险。明天 OpenAI 宣布 RFT 的统一时光,推出了强化微调研讨名目。这个名目约请全天下的科研职员供给他们范畴的决议数据集,让 OpenAI 来测试其 RFT 推理决议才能,一直退化。但是,看到这个名目的时间,让人盗汗不已。往年炎天,我加入美国迷信院召开的 AI for science 保险探讨会,包含诺奖取得者 David Baker 在内的良多研讨者也在场。探讨会上,每团体都要答复为什么本人正在开辟的 AI for science 技巧是保险的,是可控的、可追踪的。假如迷信这颗宝石,假如都会合在了统一个非开源公司手里,那么咱们造出的是新神,仍是带上了无穷手套的灭霸?作者先容王梦迪现任普林斯顿年夜学电子与盘算机工程系毕生教学,并创建并担负普林斯顿年夜学 “AI for Accelerated Invention” 核心的首任主任。她的研讨范畴涵盖强化进修、可控年夜模子、优化进修实践以及 AI for Science 等多个偏向。王梦迪曾先后在 Google DeepMind、高级研讨院与 Simons 研讨院担负拜访学者,并荣获 MIT TR35、美国国度迷信基金会(NSF)奇迹奖、Google 学者奖等多项声誉。2024 年 7 月,她获颁 AACC Donald Eckman 奖,以表扬其在把持与静态体系、呆板进修及信息论穿插范畴所作出的出色奉献。原文链接:https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0© THE END 转载请接洽本大众号取得受权投稿或追求报道:[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->