wxq

扩散模型(一)

Posted by in 未分类

本文介绍扩散模型,从最经典的 DDPM 到 一些改进工作,从 实施步骤 到 一些总括性的理论。 DDPM 扩散模型从自然界中的扩散过程获得灵感,正向的扩散过程是一种 熵增过程,会损…read more

0

VAE 变分自编码器

Posted by in 未分类

自编码器: 自编码器架构分为 编码器(Encoder),解码器(Decoder),编码器将数据压缩为 低秩向量(低维空间中的一个点),而解码器将 压缩后的 低秩向量 重建为 原始数…read more

0

近端策略优化算法

Posted by in 未分类

近端策略优化算法(PPO)是一种进阶的强化学习算法,由 OpenAI 提出,并且在许多任务上都可以取得良好的效果。 其最核心的思想是限制 策略更新的幅度,从而使得 过去产生的经验可…read more

0

Deepseek论文精读

Posted by in 未分类

近来,DeepSeek 由于其较低的成本以及优秀的效果成了一个极度热门的话题。 我将制作一系列的视频分享 DeepSeek 公开的论文中提到的部分技术。如果你对此感兴趣,欢迎关注我…read more

0

站内更新日志

Posted by in 未分类

2025-1-20 解决“强化学习”模块下文章《强化学习(一)》的排版问题 2025-1-20 “强化学习”模块下文章《强化学习(三)——术语总览》补充术语“轨迹”

0

强化学习

Posted by in 未分类

强化学习(一) 强化学习(二) 强化学习(三)——术语总览 马尔可夫决策过程(一) 马尔可夫决策过程(二) 最优价值函数 蒙特卡洛方法&Q-Learning & T…read more

0