重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性能与计算效率。一作为自动化所的孙罗洋博士生,研究方向为:大模型高效计算与优化,通讯作者为...
这是关于 Grouped-head latent Attention 标签的相关文章列表
GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性能与计算效率。一作为自动化所的孙罗洋博士生,研究方向为:大模型高效计算与优化,通讯作者为...