Tags Benchmark

常见指标之pass@k, avg@k, const@k, best@k

在很多LLM的评测报告中,可能会看到这些指标,尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同,但都基于一个前提设定:对同一个问题,模型允许生成 k 个不同的答案,再用不同方式来统计表现。

机器学习模型评估方法与准则

ML领域常见评估指标与方法:留出法(Hold-Out)、交叉验证法(Cross Validation)、自助法(Bootstrap)、Accuracy、Precision、Recall、Fβ-Score、F1-Score、真正例率(TPR)、假正例率(FPR)、ROC曲线、AUC值、PR曲线。