🦞

PinchBench

Claw-some AI Agent Testing

Top 5 Comparison

Side-by-side metrics for the strongest recommendations on this page.

Open comparison tool

Rank	Model	Overall	Use-Case Score	Cost	Avg Time
#1	`stepfun/step-3.5-flash` stepfun	84.7%	170.8 value	$0.496	236.4m
#2	`google/gemma-4-26b-a4b-it` google	74.6%	167.6 value	$0.445	310.2m
#3	`openai/gpt-oss-120b` openai	47.4%	158.8 value	$0.299	194.8m
#4	`mistralai/mistral-large-2512` mistralai	72.9%	152.4 value	$0.479	281.7m
#5	`openai/gpt-oss-20b` openai	41.8%	132.8 value	$0.315	122.1m