AsyncFlow

感觉主要做的是控制平面和数据平面的分离，解决了调度的问题，便于根据数据依赖，通过生产者-消费者模式，实现自然的任务并行重叠。

数据的异步，控制平面
RL的流水线化

数据

作用

数据流水线：它允许下游任务在整个训练数据集准备好之前，就以“流式”方式获取部分样本进行计算。
集中化的数据管理：它为每个 RL 任务提供了一个集中化的数据状态视图，无需开发者手动定义复杂的跨实例数据依赖链
负载均衡：能够根据实例的处理能力动态调度数据。例如，处理速度较快的实例可以请求更多数据，从而提高系统整体效率

实现

元数据储存在各个角色的Control Plane，真实数据分布式储存在Data Plane。

2D 列式存储 (2D Columnar Storage)：行存样本，列存数据组件。可以按需取列。
分布式存储单元：为了分摊 I/O 和带宽压力，训练样本被分片存储在多个存储单元中，每个单元负责全局批次的一个子集
元数据通知机制：当新的数据写入存储单元后，它会触发一个通知，将行索引和列标识广播给所有的控制器（Controllers）这种机制允许每个 RL 任务在请求时动态访问新可用的数据。
调度流程：当收到读取请求时，控制器会扫描元数据，寻找所有所需列均已就绪（状态为 1）且未被消费的条目，将其打包成微批次（Micro-batch）返回给请求者。集中数据管理，让控制器动态调度所有可用数据。选择RL任务。谁快谁多拿，解决负载均衡。

异步工作流

延迟参数更新机制 (Delayed Parameter Update Mechanism)：当模型更新完成时，生成工人（Rollout Worker）不会立即停止工作，而是继续使用旧权重进行采样，同时在后台异步地将新权重写入主机内存
一阶异步策略：AsyncFlow 将异步程度控制在算法可接受的范围内。研究表明，允许生成与更新之间存在一个步长的异步（One-step asynchronization）几乎不会导致模型性能或收敛性的显著下降
任务并行重叠：利用其 TransferQueue 组件，下游任务（如 Critic 更新）可以在上游任务（如 Actor 生成）仅完成部分样本时就开始工作，实现了任务间的自动化流水线重叠
离线传输：模型权重会先从训练引擎卸载到主机设备，然后通过主机网络异步传输给推理引擎，从而使权重的同步过程不会干扰正在进行的计算任务