保持饥饿，保持傻x 😄

TS for learning in online decision making notes

发表于 2019-08-19 | 分类于 Blog | 热度 ℃

https://www.youtube.com/watch?v=o6HBIGzQfJs

youtube看到的视频，底下有个评论说讲的清楚，记一些有用的结论留存。

这种情况下，arm对应的reward不再是固定的，取决于在时刻t，arm $i$所面对的context，也就是$x_{i,t}$

结果不依赖于arm的个数。$d$是$\theta$的维度。只假设了分布是bounded或者sub-Gaussian noise（这个是什么意思？）

用Dirichlet分布作为后验分布，有n个参数，如果有某个状态发生变化，就把相应的参数增加。

坚持原创技术分享，您的支持将鼓励我继续创作！

本文作者： 小明
本文链接： https://maidousj.github.io/2019/08/19/TS-for-learning-in-online/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！