Absolutely Convergence Test

There's a Benchmark Test That Measures AI 'Bullshit'—Most Models Fail

BullshitBench tests whether AI models can detect nonsensical questions—or if they'll confidently answer them anyway. The results are dire.

一些您可能无法访问的结果已被隐去。