当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 浏览次数:发表时间:2025-06-24 22:05:17
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 你见过最恶心的邻居是什么样子?
- 穿瑜伽裤爬山的女生会不会害羞?
- 为什么腾讯云或者阿里云不让自建dns服务器?
- 你会从mac转向Windows吗?
- 怎样判断一个人的智商在你之上?
- 如何评价华为HDC2025开发者大会?
- 中国军事力量有希望达到全球第一吗?
- PHP现在真的已经过时了吗?
- 2025 年有哪些值得关注的开源项目?
- 买到烂尾楼到底该有多绝望?
最新资讯文章
- 为什么好多人不承认大众审美就是喜欢白皮?
- 坚持使用 PHP 的你,如今有什么感悟?
- 电视支持4K120hz,为什么连接电脑后4K下最高只能选择60hz?
- 编程问题哪里解决?
- Web前端现在前景怎么样?
- 有邻居的追求者出价三万,让我连续半个月每天找个女朋友晚上弄点动静,我该答应吗?
- cloudflare的1.1.1.1和warp有什么区别?
- 大厂后端开发需要掌握docker和k8s吗?
- 为什么一般人不建议住别墅?
- 如何评价近期开播的《长安的荔枝》?
- 如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?
- PHP初学者,我能不能使用PHP来开发桌面应用?
- 为什么都认为无GC语言一定会比有GC语言要快?
- 如何自己搭建家庭服务器?
- 为什么现在吹Rust的人这么多?
- 一张纸对折105次,宇宙就真的放不下了吗?
- 前端,后端,全栈哪个好找工作?
- 当初中俄为什么不摧毁朝鲜的核设施,让朝鲜拥有了自己的核武器?
- 人常说女人味,到底是个什么味?
- 官方通报贵州厦蓉高速三都往榕江大桥垮塌,因持续强降雨诱发山体滑坡导致,目前情况如何?