大模型架构演进

LLM架构深度解析

深入理解注意力机制、位置编码、层归一化等核心技术原理。

Attention位置编码层归一化残差连接

前沿技术与工程实践

KV Cache与PagedAttention深度解析

从Transformer的KV Cache内存瓶颈出发,系统剖析PagedAttention的虚拟内存思想与vLLM架构设计。

LLM推理KV CachePagedAttentionvLLM内存优化

模型量化技术工程实践

从Hessian矩阵近似到激活感知量化,系统剖析LLM量化原理、校准集设计与工程落地实践。

模型压缩量化技术GPTQAWQQLoRA

论文精读