感觉主要做的是控制平面和数据平面的分离,解决了调度的问题,便于根据数据依赖,通过生产者-消费者模式,实现自然的任务并行重叠。
元数据储存在各个角色的Control Plane,真实数据分布式储存在Data Plane。
2D 列式存储 (2D Columnar Storage):行存样本,列存数据组件。可以按需取列。
分布式存储单元:为了分摊 I/O 和带宽压力,训练样本被分片存储在多个存储单元中,每个单元负责全局批次的一个子集
元数据通知机制:当新的数据写入存储单元后,它会触发一个通知,将行索引和列标识广播给所有的控制器(Controllers)这种机制允许每个 RL 任务在请求时动态访问新可用的数据。
调度流程:当收到读取请求时,控制器会扫描元数据,寻找所有所需列均已就绪(状态为 1)且未被消费的条目,将其打包成微批次(Micro-batch)返回给请求者 。集中数据管理,让控制器动态调度所有可用数据。选择RL任务。谁快谁多拿,解决负载均衡。
延迟参数更新机制 (Delayed Parameter Update Mechanism):当模型更新完成时,生成工人(Rollout Worker)不会立即停止工作,而是继续使用旧权重进行采样,同时在后台异步地将新权重写入主机内存
一阶异步策略:AsyncFlow 将异步程度控制在算法可接受的范围内。研究表明,允许生成与更新之间存在一个步长的异步(One-step asynchronization)几乎不会导致模型性能或收敛性的显著下降
任务并行重叠:利用其 TransferQueue 组件,下游任务(如 Critic 更新)可以在上游任务(如 Actor 生成)仅完成部分样本时就开始工作,实现了任务间的自动化流水线重叠
离线传输:模型权重会先从训练引擎卸载到主机设备,然后通过主机网络异步传输给推理引擎,从而使权重的同步过程不会干扰正在进行的计算任务