标签 Transformer 下的文章

KV 缓存-注意力的 QKV 中的 KV [转]

搞懂缓存机制，从Gemma4到Claude Code省80%Token大模型生成文本时，用的是 Transformer 注意力机制。核心公式：Attent...

2026 年 04 月 09 日

vLLM与Hugging Face模型推理对比

离线推理( offline inference )场景中，比较关注最大化吞吐量并降低单次推理成本。传统方...

2025 年 05 月 24 日

LLMs 的微调方式图示

往往是训练或微调 LLM，以基于特定的基础知识进行特定任务. 下图示例了不同的微调策略.LLMs 很难完全都放进 GPU 显存里. 如果想更新全部的网络层...

2023 年 07 月 06 日

Self-Attention工作机制

From: https://twitter.com/akshay_pachaar/status/1657...

2023 年 05 月 20 日

GPT Transformers 图解[转]

From: https://twitter.com/akshay_pachaar/status/1638518399914643456Block可以修改 ...

2023 年 03 月 01 日

双语字幕 - 动画解读Transformer神经网络

https://www.youtube.com/watch?v=VtZ02rnfcCQAnalogie...

2022 年 01 月 09 日

计算机视觉之ViT分类网络

出处：Paddle文档平台 - ViT（ Vision Transformer）1. ViT模型介绍在计算机视觉领域中，多数算法都是保持CNN整体结构不变...

2021 年 09 月 13 日

计算机视觉2021年的五个趋势[译]

原文：5 Computer Vision Trends for 2021 - 2021.06.09计算机...

2021 年 06 月 17 日

论文速读 - 用于布局生成的变分Transformer网络

论文：Variational Transformer Networks for Layout Generation - CVPR2021Blog：Usin...

2021 年 06 月 13 日

美团外卖套餐搭配的探索和应用[转]

原文：外卖套餐搭配的探索和应用 - 2021.05.27出处：美团技术团队作者：瑞玉、文斌、杨林、懋地...

2021 年 05 月 27 日