Grouped-head latent Attention

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性能与计算效率。一作为自动化所的孙罗洋博士生，研究方向为：大模型高效计算与优化，通讯作者为...

游客 /游戏心得 /2025-08-02 /3 阅读