大模型排行榜

模型A在所有非平局的A对B战斗中获胜的分数
每个模型组合的战斗计数(无平局)
模型强度的置信区间(通过自举)
相对于所有其他模型的平均胜率(假设均匀采样且无平局)