\begin{frame}{44 Adaptation-Based Programming(ABP)}
\begin{columns}
\begin{column}<0->{0.8\textwidth}
\footnotesize{
\begin{tabular}{c|c}
\toprule[1pt]
状态空间 & $h_0,h_1,...,h_4,b/w,arr. rate,drop bit$\\
\midrule[1pt]
动作空间 & 修改CW: 重制、乘二、除二、保持\\
\midrule
奖励函数 & 发送的包数量-丢失的包数量\\
\midrule
备注 & {训练adaptive programs的时候,每60秒一个周期\\ &每100个周期观察一次表现\\ &50,000个周期之后,以累积奖励选择最佳的policy\\ &为避免随机性和局部最优,重复以上过程5次}\\
\bottomrule[1pt]
\end{tabular}
}
\end{column}
\begin{column}<0->{0.2\textwidth}
\footnotesize{
\begin{tabular}{c|c}
\toprule[1pt]
$h_0,...,h_4$ & 5个历史bits,1碰撞,0成功\\
\midrule[1pt]
$b/w$ & 预估可用带宽(三档)\\
\midrule
$arr. rate$ & 预估包到达率(三档)\\
\midrule
$drop bit$ & 最后一个到达队列的包是否丢失\\
\bottomrule[1pt]
\end{tabular}
}
\end{column}
\end{columns}
\end{frame}
查看更多