分类 Transformer 下的文章

KV 缓存-注意力的 QKV 中的 KV [转]

搞懂缓存机制，从Gemma4到Claude Code省80%Token大模型生成文本时，用的是 Transformer 注意力机制。核心公式：Attent...

2026 年 04 月 09 日

transformer-explainer

https://poloclub.github.io/transformer-explainer/htt...

2024 年 08 月 18 日

Attention 中的QKV[转]

From: 如何理解attention中的Q,K,V？- 知乎From: https://www.zhihu.com/question/298810062...

2023 年 07 月 10 日

LLMs 的微调方式图示

往往是训练或微调 LLM，以基于特定的基础知识进行特定任务. 下图示例了不同的微调策略.LLMs 很难完...

2023 年 07 月 06 日

条件概率及语言模型简述

From: https://twitter.com/akshay_pachaar/status/1667147048553164800LLMs 大火，但它...

2023 年 06 月 10 日

Self-Attention工作机制

From: https://twitter.com/akshay_pachaar/status/1657...

2023 年 05 月 20 日

GPT Transformers 图解[转]

From: https://twitter.com/akshay_pachaar/status/1638518399914643456Block可以修改 ...

2023 年 03 月 01 日

双语字幕 - 动画解读Transformer神经网络

https://www.youtube.com/watch?v=VtZ02rnfcCQAnalogie...

2022 年 01 月 09 日

计算机视觉之ViT分类网络

出处：Paddle文档平台 - ViT（ Vision Transformer）1. ViT模型介绍在计算机视觉领域中，多数算法都是保持CNN整体结构不变...

2021 年 09 月 13 日

深度学习进阶之Transformer

出处：Paddle文档平台 - Transformer1. Transformer 介绍Transfor...

2021 年 09 月 12 日