Search - 4rchive

4chan Search

1 results for "e9f499ef7e8081a30876d59859a423c0"

Anonymous 7/2/2025, 9:16:35 AM No.105774179 [Report]

1751335727-performance-on-sciarena-graph-development-v13-1.jpg

Finally, a good benchmark : human experts rating model answers.
https://allenai.org/blog/sciarena
Unsurprisingly, mistral is rated as dogshit
Mistral medium even does worse than small, real lol, lmao even