Day 21 · Sequence Parallel & Context Parallel
进入长序列训练的并行策略:解释为什么长上下文会让 activation 和 attention 成为瓶颈,拆开 Sequence Parallel 与 Context Parallel 的切分边界,理解 Ring Attention 如何用块状 attention 和环形 KV 传递扩展上下文长度。
进入长序列训练的并行策略:解释为什么长上下文会让 activation 和 attention 成为瓶颈,拆开 Sequence Parallel 与 Context Parallel 的切分边界,理解 Ring Attention 如何用块状 attention 和环形 KV 传递扩展上下文长度。