大模型排行榜

模型A在所有非平局的A对B战斗中获胜的分数

每个模型组合的战斗计数（无平局）

模型强度的置信区间（通过自举）

相对于所有其他模型的平均胜率（假设均匀采样且无平局）