{主关键词}
本,通过重写矩阵乘法内核,成功将AMD RX 6800 XT显卡的MoE大模型预填充速度从上游llama.cpp主分支下的约480 t/s提升至1770 t/s 该团队长期维护面向AMD GPU深度适配的llama.cpp专属分支,专门针对AMD硬件特性优化大语言模型推理性能。  
当前文章:http://017o7wt.yt-mqs-quickq.com.cn/vl7/r6ofw.html
发布时间:02:06:30
城市资讯网热门国内