视觉设计网站有哪些,浙江建筑公司排名前100,书店建设网站,上海跨境电商公司强化学习-UCB示例
1-UCB动作选择方法算法-示例1
场景设定
假设你来到一家有多种菜品的餐厅#xff0c;每次去只能点一道菜#xff0c;你希望通过多次尝试找到最合自己口味#xff08;即收益最高#xff09;的菜品。这里每道菜就相当于多臂老虎机问题中的一个“臂”…强化学习-UCB示例
1-UCB动作选择方法算法-示例1
场景设定
假设你来到一家有多种菜品的餐厅每次去只能点一道菜你希望通过多次尝试找到最合自己口味即收益最高的菜品。这里每道菜就相当于多臂老虎机问题中的一个“臂”UCBUpper Confidence Bound置信上限动作选择方法可以帮助你在尝试不同菜品探索和选择已知好吃的菜品利用之间找到平衡。
初始状态
餐厅有 n n n 道菜一开始你对所有菜品都没有任何体验。对于每道菜 i i i 需要记录两个值
**尝试次数 n i n_i ni **初始时每道菜的尝试次数 n i 0 n_i 0 ni0 。**累计收益 R i R_i Ri **初始时每道菜的累计收益 R i 0 R_i 0 Ri0 。**总尝试次数 N N N **初始时 N 0 N 0 N0 。
执行过程
前 n n n 次用餐探索阶段
菜品选择为了对每道菜都有一定的了解在前 n n n 次用餐中你会依次选择不同的菜品。即第一次选择第一道菜第二次选择第二道菜以此类推直到把 n n n 道菜都尝试一遍。收益评估每次用餐后你根据自己对这道菜的满意度给出一个收益评分 r r r 例如满分为 10 分。假设你第一次选择了宫保鸡丁吃完后觉得味道不错给了 7 分。此时宫保鸡丁的尝试次数 n 宫保鸡丁 1 n_{宫保鸡丁}1 n宫保鸡丁1 累计收益 R 宫保鸡丁 7 R_{宫保鸡丁}7 R宫保鸡丁7 总尝试次数 N 1 N 1 N1 。第二次选择鱼香肉丝给了 6 分那么鱼香肉丝的 n 鱼香肉丝 1 n_{鱼香肉丝}1 n鱼香肉丝1 R 鱼香肉丝 6 R_{鱼香肉丝}6 R鱼香肉丝6 总尝试次数 N 2 N 2 N2 。平均收益计算每道菜的平均收益 R ‾ i R i n i \overline{R}_i\frac{R_i}{n_i} RiniRi 。例如宫保鸡丁的平均收益 R ‾ 宫保鸡丁 7 1 7 \overline{R}_{宫保鸡丁}\frac{7}{1}7 R宫保鸡丁177 分鱼香肉丝的平均收益 R ‾ 鱼香肉丝 6 1 6 \overline{R}_{鱼香肉丝}\frac{6}{1}6 R鱼香肉丝166 分。
第 n 1 n 1 n1 次及以后的用餐探索与利用平衡阶段
计算 UCB 值从第 n 1 n 1 n1 次用餐开始每次选择菜品前需要为每道菜计算 UCB 值。UCB 值的计算公式为 U C B i R ‾ i c ln N n i UCB_i\overline{R}_i c\sqrt{\frac{\ln N}{n_i}} UCBiRicnilnN 其中 c c c 是一个常数用于控制探索和利用的平衡 c c c 值越大越倾向于探索 c c c 值越小越倾向于利用。假设 c 1 c 1 c1 。 以宫保鸡丁和鱼香肉丝为例假设已经尝试了 3 次 N 3 N 3 N3 宫保鸡丁尝试了 2 次 n 宫保鸡丁 2 n_{宫保鸡丁}2 n宫保鸡丁2 累计收益 R 宫保鸡丁 13 R_{宫保鸡丁}13 R宫保鸡丁13 第二次吃宫保鸡丁给了 6 分平均收益 R ‾ 宫保鸡丁 13 2 6.5 \overline{R}_{宫保鸡丁}\frac{13}{2}6.5 R宫保鸡丁2136.5 分鱼香肉丝尝试了 1 次 n 鱼香肉丝 1 n_{鱼香肉丝}1 n鱼香肉丝1 累计收益 R 鱼香肉丝 6 R_{鱼香肉丝}6 R鱼香肉丝6 分平均收益 R ‾ 鱼香肉丝 6 \overline{R}_{鱼香肉丝}6 R鱼香肉丝6 分。计算宫保鸡丁的 UCB 值 U C B 宫保鸡丁 6.5 1 × ln 3 2 ≈ 6.5 0.73 7.23 UCB_{宫保鸡丁}6.51\times\sqrt{\frac{\ln 3}{2}}\approx6.5 0.737.23 UCB宫保鸡丁6.51×2ln3 ≈6.50.737.23 。计算鱼香肉丝的 UCB 值 U C B 鱼香肉丝 6 1 × ln 3 1 ≈ 6 1.09 7.09 UCB_{鱼香肉丝}61\times\sqrt{\frac{\ln 3}{1}}\approx6 1.097.09 UCB鱼香肉丝61×1ln3 ≈61.097.09 。 菜品选择选择 UCB 值最大的菜品。在上述例子中因为 U C B 宫保鸡丁 U C B 鱼香肉丝 UCB_{宫保鸡丁}UCB_{鱼香肉丝} UCB宫保鸡丁UCB鱼香肉丝 所以第 4 次用餐你会选择宫保鸡丁。收益评估与数据更新用餐后根据满意度给出这道菜的收益评分 r r r 。假设这次吃宫保鸡丁给了 7 分那么宫保鸡丁的累计收益 R 宫保鸡丁 13 7 20 R_{宫保鸡丁}13 7 20 R宫保鸡丁13720 尝试次数 n 宫保鸡丁 3 n_{宫保鸡丁}3 n宫保鸡丁3 总尝试次数 N 4 N 4 N4 平均收益 R ‾ 宫保鸡丁 20 3 ≈ 6.67 \overline{R}_{宫保鸡丁}\frac{20}{3}\approx6.67 R宫保鸡丁320≈6.67 分。然后在下一次选择时重新计算每道菜的 UCB 值重复上述过程。
总结
UCB 动作选择方法在前期会对所有菜品进行探索以获取基本的收益信息。之后通过计算每道菜的 UCB 值综合考虑菜品的平均收益和其不确定性尝试次数在探索新菜品和利用已知好吃的菜品之间找到平衡。随着用餐次数的增加会逐渐倾向于选择那些平均收益高且相对稳定尝试次数多的菜品但也会偶尔尝试其他菜品以避免错过可能更好的选择。 2-UCB动作选择方法算法-示例2
在UCBUpper Confidence Bound置信上限动作选择方法中确实会自动分配更多机会给尝试不足或久未验证的动作下面结合餐厅用餐的例子详细解释其原理及证明。
UCB值公式体现探索性
UCB值的计算公式为 U C B i R ‾ i c ln N n i UCB_i\overline{R}_i c\sqrt{\frac{\ln N}{n_i}} UCBiRicnilnN 其中 R ‾ i \overline{R}_i Ri 是动作 i i i 对应餐厅里的某道菜的平均收益代表了目前对该动作的已知收益情况。 N N N 是总的尝试次数。 n i n_i ni 是动作 i i i 被尝试的次数。 c c c 是一个常数用于调节探索和利用的平衡。
公式中的 c ln N n i c\sqrt{\frac{\ln N}{n_i}} cnilnN 这一项体现了对动作不确定性的估计也就是鼓励对尝试不足或久未验证的动作进行探索。
尝试不足的菜品优先被选择
数学原理当某道菜 i i i 的尝试次数 n i n_i ni 较小时 ln N n i \frac{\ln N}{n_i} nilnN 的值会较大从而使得 c ln N n i c\sqrt{\frac{\ln N}{n_i}} cnilnN 这一项的值较大那么 U C B i UCB_i UCBi 的值就会相对较大。结合例子假设餐厅有宫保鸡丁、鱼香肉丝和麻婆豆腐三道菜。前几次用餐后宫保鸡丁尝试了 10 次平均收益是 7 分鱼香肉丝只尝试了 2 次平均收益是 6 分麻婆豆腐尝试了 1 次收益是 8 分。此时总尝试次数 N 13 N 13 N13 设 c 1 c 1 c1 。 计算宫保鸡丁的 UCB 值 U C B 宫保鸡丁 7 1 × ln 13 10 ≈ 7 0.52 7.52 UCB_{宫保鸡丁}7 1\times\sqrt{\frac{\ln 13}{10}}\approx70.52 7.52 UCB宫保鸡丁71×10ln13 ≈70.527.52 。计算鱼香肉丝的 UCB 值 U C B 鱼香肉丝 6 1 × ln 13 2 ≈ 6 1.47 7.47 UCB_{鱼香肉丝}6 1\times\sqrt{\frac{\ln 13}{2}}\approx6 1.477.47 UCB鱼香肉丝61×2ln13 ≈61.477.47 。计算麻婆豆腐的 UCB 值 U C B 麻婆豆腐 8 1 × ln 13 1 ≈ 8 1.86 9.86 UCB_{麻婆豆腐}8 1\times\sqrt{\frac{\ln 13}{1}}\approx81.86 9.86 UCB麻婆豆腐81×1ln13 ≈81.869.86 。可以看到虽然麻婆豆腐只尝试了 1 次但由于其尝试次数少不确定性大导致 c ln N n i c\sqrt{\frac{\ln N}{n_i}} cnilnN 这一项的值较大使得它的 UCB 值最大因此下一次就会优先选择麻婆豆腐进行尝试。
久未验证的菜品有机会被再次选择
数学原理随着总尝试次数 N N N 的增加 ln N \ln N lnN 会不断增大。对于久未验证即尝试次数 n i n_i ni 没有随着 N N N 同步增加的动作 ln N n i \frac{\ln N}{n_i} nilnN 会逐渐增大从而使得 c ln N n i c\sqrt{\frac{\ln N}{n_i}} cnilnN 增大 U C B i UCB_i UCBi 也可能增大。结合例子假设经过多次用餐大部分时候都选择了宫保鸡丁和鱼香肉丝麻婆豆腐很久没有被选择了。此时总尝试次数 N N N 变得很大而麻婆豆腐的尝试次数 n 麻婆豆腐 n_{麻婆豆腐} n麻婆豆腐 没有增加太多。那么 c ln N n 麻婆豆腐 c\sqrt{\frac{\ln N}{n_{麻婆豆腐}}} cn麻婆豆腐lnN 这一项会随着 N N N 的增大而增大有可能使得麻婆豆腐的 U C B 麻婆豆腐 UCB_{麻婆豆腐} UCB麻婆豆腐 超过其他菜品从而在下一次被选择即对其进行再次验证。
综上所述UCB动作选择方法通过UCB值的计算能够自动分配更多机会给尝试不足或久未验证的动作在餐厅用餐的例子中会优先选择那些尝试次数少的菜品或者在总尝试次数增加后再次选择久未尝试的菜品。 3-UCB动作选择方法算法-示例3
真实生活案例在线视频平台的「视频推荐系统」
背景某视频平台如YouTube需在用户首页推荐3个视频A/B/C目标是最大化用户观看时长。
动作选择推荐哪个视频A/B/C奖励用户观看时长分钟挑战 视频A高质量但小众真实平均时长8分钟视频B中等质量但稳定真实平均时长5分钟视频C低质量标题党真实平均时长2分钟 目标用UCB算法平衡探索新视频与利用已知优质视频 UCB算法执行过程
参数设置
探索因子 c2平衡探索强度初始值 Q(A)Q(B)Q(C)0初始平均奖励N(A)N(B)N(C)0展示次数t0总推荐次数 第1轮强制探索t1
问题所有N(a)0 → UCB值无限大解决方案每个视频轮流展示一次初始探索 动作结果更新推荐A观看9分钟N(A)1, Q(A)9/19推荐B观看4分钟N(B)1, Q(B)4/14推荐C观看1分钟N(C)1, Q(C)1/11 总次数t3 第4轮UCB决策起点t4
计算UCB值c2, ln(3)≈1.1UCB(A) 9 2×√(1.1/2) ≈ 9 2×1.05 **11.1**
UCB(B) 4 2×√(1.1/1) ≈ 4 2.1 **6.1**
UCB(C) 1 2×√(1.1/1) ≈ 1 2.1 **3.1** 选择动作推荐UCB值最大的视频A利用结果观看7分钟接近真实值8更新 N(A)2, Q(A)(97)/28 t4 第5轮探索信号出现t5
计算UCB值ln(4)≈1.39UCB(A) 8 2×√(1.39/2) ≈ 8 2×√0.695 ≈ 8 2×0.83 **9.66**
UCB(B) 4 2×√(1.39/1) ≈ 4 2×1.18 **6.36**
UCB(C) 1 2×√(1.39/1) ≈ 1 2.36 **3.36** 选择动作仍然推荐视频A利用结果观看8分钟更新 N(A)3, Q(A)(168)/38 t5 第6轮系统触发探索t6
计算UCB值ln(5)≈1.61UCB(A) 8 2×√(1.61/3) ≈ 8 2×√0.537 ≈ 8 2×0.73 **9.46**
UCB(B) 4 2×√(1.61/1) ≈ 4 2×1.27 **6.54**
UCB(C) 1 2×√(1.61/1) ≈ 1 2×1.27 **3.54** 关键变化 B的探索项 √(ln(t)/N(B)) 从1.18→1.27因t↑但N(B)未增B的UCB值首次超过A的探索项6.54 9.46-81.46 选择动作推荐视频B探索结果观看5分钟符合真实值更新 N(B)2, Q(B)(45)/24.5 t6 第7轮验证探索结果t7
计算UCB值ln(6)≈1.79UCB(A) 8 2×√(1.79/3) ≈ 8 2×0.77 **9.54**
UCB(B) 4.5 2×√(1.79/2) ≈ 4.5 2×√0.895 ≈ 4.5 2×0.95 **6.4**
UCB(C) 1 2×√(1.79/1) ≈ 1 2×1.34 **3.68** 选择动作推荐视频AUCB值仍最高结果观看6分钟正常波动更新 N(A)4, Q(A)(246)/47.5 t7 第10轮压制低价值探索t10
当前状态 N(A)6, Q(A)≈7.8稳定高质量N(B)3, Q(B)4.3中等质量N(C)1, Q(C)1低质量 计算UCB值ln(10)≈2.3UCB(A) 7.8 2×√(2.3/6) ≈ 7.8 2×0.62 **9.04**
UCB(B) 4.3 2×√(2.3/3) ≈ 4.3 2×0.88 **6.06**
UCB(C) 1 2×√(2.3/1) ≈ 1 2×1.52 **4.04** ← 探索项激增 选择动作推荐视频C因长期未探索UCB探索项飙升结果观看0.5分钟用户快速跳过更新 N(C)2, Q(C)(10.5)/20.75 t10 第15轮收敛到最优解t15
最终状态 N(A)10, Q(A)7.9N(B)4, Q(B)4.5N(C)2, Q(C)0.75 UCB值计算UCB(A) 7.9 2×√(2.7/10) ≈ 7.9 2×0.52 **8.94**
UCB(B) 4.5 2×√(2.7/4) ≈ 4.5 2×0.82 **6.14**
UCB(C) 0.75 2×√(2.7/2) ≈ 0.75 2×1.16 **3.07** 策略结果 推荐A的概率 80%最优解偶尔推荐B约15%几乎不推荐C5% UCB的核心机制分析
1. 动态探索项公式
探索强度 c × √(㏑t / N(a))
N(a)↓展示少→ 探索项↑ → 强制探索如第6轮选Bt↑总次数增→ 探索项↑ → 防遗忘如第10轮选C
2. 智能探索分配
视频真实质量UB策略效果A高高利用为主偶尔验证B中适量探索占15%C低快速压制探索5%
3. 非平稳环境自适应
假设视频B质量提升新编剧→平均时长从5→7分钟
第20轮当B的Q(B)随新数据上升UCB变化Q(B)↑ 探索项↑因t↑→ 重新增加B的曝光 对比ε-greedy的劣势场景
假设使用ε0.2的贪婪算法
第10轮时 80%概率推荐A正确20%概率完全随机 → 可能浪费1/3探索在已知低质的C上 B质量提升时 依赖随机探索发现改进 → 响应速度慢 UCB在实际系统的优化
衰减机制# 降低旧数据权重适应内容变化
Q(a) (1 - α) * Q(a) α * r # α≈0.1~0.3上下文扩展Contextual BanditUCB(a) θ·x(a) c√(x(a)ᵀA⁻¹x(a)) # 加入用户特征分布式计算 全局统计t和N(a)局部计算用户个性化UCB 总结UCB的核心价值
通过数学公式量化不确定性 UCB ( a ) Q ( a ) ⏟ 利用项 c ln t N ( a ) ⏟ 探索项 \text{UCB}(a) \underbrace{Q(a)}_{\text{利用项}} \underbrace{c \sqrt{\frac{\ln t}{N(a)}}}_{\text{探索项}} UCB(a)利用项 Q(a)探索项 cN(a)lnt
探索自动分配给尝试不足或久未验证的动作利用优先选择置信上界最高的动作收敛证明总遗憾regret增长率为O(√T)
在视频推荐案例中UCB实现了
✅ 快速锁定优质视频A利用✅ 智能探索潜力视频B避免过早放弃✅ 压制低质视频C减少资源浪费✅ 自适应内容变化通过探索项响应质量波动 文章转载自: http://www.morning.lgmgn.cn.gov.cn.lgmgn.cn http://www.morning.wgtnz.cn.gov.cn.wgtnz.cn http://www.morning.tqbqb.cn.gov.cn.tqbqb.cn http://www.morning.yccnj.cn.gov.cn.yccnj.cn http://www.morning.xnwjt.cn.gov.cn.xnwjt.cn http://www.morning.ylpwc.cn.gov.cn.ylpwc.cn http://www.morning.leeong.com.gov.cn.leeong.com http://www.morning.gwqq.cn.gov.cn.gwqq.cn http://www.morning.wspjn.cn.gov.cn.wspjn.cn http://www.morning.khclr.cn.gov.cn.khclr.cn http://www.morning.smnxr.cn.gov.cn.smnxr.cn http://www.morning.wbdm.cn.gov.cn.wbdm.cn http://www.morning.lxmks.cn.gov.cn.lxmks.cn http://www.morning.ztdlp.cn.gov.cn.ztdlp.cn http://www.morning.yfmlj.cn.gov.cn.yfmlj.cn http://www.morning.fysdt.cn.gov.cn.fysdt.cn http://www.morning.jwxmn.cn.gov.cn.jwxmn.cn http://www.morning.gmztd.cn.gov.cn.gmztd.cn http://www.morning.fgxr.cn.gov.cn.fgxr.cn http://www.morning.ampingdu.com.gov.cn.ampingdu.com http://www.morning.tpssx.cn.gov.cn.tpssx.cn http://www.morning.cnqdn.cn.gov.cn.cnqdn.cn http://www.morning.kflzy.cn.gov.cn.kflzy.cn http://www.morning.tztgq.cn.gov.cn.tztgq.cn http://www.morning.lyrgp.cn.gov.cn.lyrgp.cn http://www.morning.tbjtm.cn.gov.cn.tbjtm.cn http://www.morning.skdrp.cn.gov.cn.skdrp.cn http://www.morning.rckmz.cn.gov.cn.rckmz.cn http://www.morning.wfzdh.cn.gov.cn.wfzdh.cn http://www.morning.grxsc.cn.gov.cn.grxsc.cn http://www.morning.lxfdh.cn.gov.cn.lxfdh.cn http://www.morning.kfstq.cn.gov.cn.kfstq.cn http://www.morning.rhmpk.cn.gov.cn.rhmpk.cn http://www.morning.ftgwj.cn.gov.cn.ftgwj.cn http://www.morning.tgmfg.cn.gov.cn.tgmfg.cn http://www.morning.qnzgr.cn.gov.cn.qnzgr.cn http://www.morning.nqrlz.cn.gov.cn.nqrlz.cn http://www.morning.spghj.cn.gov.cn.spghj.cn http://www.morning.bkqw.cn.gov.cn.bkqw.cn http://www.morning.xbxks.cn.gov.cn.xbxks.cn http://www.morning.zdnrb.cn.gov.cn.zdnrb.cn http://www.morning.xhgxd.cn.gov.cn.xhgxd.cn http://www.morning.pqhfx.cn.gov.cn.pqhfx.cn http://www.morning.pcshb.cn.gov.cn.pcshb.cn http://www.morning.qnhcx.cn.gov.cn.qnhcx.cn http://www.morning.glxmf.cn.gov.cn.glxmf.cn http://www.morning.gkdhf.cn.gov.cn.gkdhf.cn http://www.morning.bcngs.cn.gov.cn.bcngs.cn http://www.morning.hybmz.cn.gov.cn.hybmz.cn http://www.morning.cxtbh.cn.gov.cn.cxtbh.cn http://www.morning.nba1on1.com.gov.cn.nba1on1.com http://www.morning.wgtr.cn.gov.cn.wgtr.cn http://www.morning.jbqwb.cn.gov.cn.jbqwb.cn http://www.morning.mxcgf.cn.gov.cn.mxcgf.cn http://www.morning.rqhbt.cn.gov.cn.rqhbt.cn http://www.morning.lxlzm.cn.gov.cn.lxlzm.cn http://www.morning.dwyyf.cn.gov.cn.dwyyf.cn http://www.morning.kqzxk.cn.gov.cn.kqzxk.cn http://www.morning.kcsx.cn.gov.cn.kcsx.cn http://www.morning.djmdk.cn.gov.cn.djmdk.cn http://www.morning.lzqtn.cn.gov.cn.lzqtn.cn http://www.morning.mplld.cn.gov.cn.mplld.cn http://www.morning.jpydf.cn.gov.cn.jpydf.cn http://www.morning.cjwkf.cn.gov.cn.cjwkf.cn http://www.morning.bwdnx.cn.gov.cn.bwdnx.cn http://www.morning.jcbjy.cn.gov.cn.jcbjy.cn http://www.morning.tngdn.cn.gov.cn.tngdn.cn http://www.morning.mldrd.cn.gov.cn.mldrd.cn http://www.morning.mzjbz.cn.gov.cn.mzjbz.cn http://www.morning.ymqrc.cn.gov.cn.ymqrc.cn http://www.morning.wjtwn.cn.gov.cn.wjtwn.cn http://www.morning.zffps.cn.gov.cn.zffps.cn http://www.morning.xckdn.cn.gov.cn.xckdn.cn http://www.morning.trrd.cn.gov.cn.trrd.cn http://www.morning.pnbls.cn.gov.cn.pnbls.cn http://www.morning.rbmnq.cn.gov.cn.rbmnq.cn http://www.morning.bnbzd.cn.gov.cn.bnbzd.cn http://www.morning.yrnyz.cn.gov.cn.yrnyz.cn http://www.morning.nwclg.cn.gov.cn.nwclg.cn http://www.morning.rfmzc.cn.gov.cn.rfmzc.cn