Patrick Zandl
Česká pirátská strana
Twitter
AKTIVNÍ
Obsah příspěvku
Opus 4.6 je venku a internet je plný "recenzí" od lidí, kteří přepsali release notes a přidali "I just tested it" do titulku.
Takže co víme reálně?
Anthropic tvrdí: +190 Elo nad 4.5, nejlepší Terminal-Bench, poráží GPT-5.2. Na jejich vlastních benchmarcích. Které selektivně vybírají. chybí MMLU, GPQA, HumanEval.
Box (nezávisle) naměřil: z 58 % na 68 % na enterprise reasoning. Zajímavé, ale 68 % = pořád chyba v každé třetí úloze.
Největší skok: Life Sciences 39 → 64 %.
Nejslabší: Legal 51 %.
Reálné novinky: 1M kontext, 128K output, paralelní agenti.
Verdikt: solidní iterace, ne paradigm shift. Pokud jste na Opus 4.5 a pracujete s velkými codebases, upgrade dává smysl. Ale práci s 1M kontextem zatím lze otestovat jen v placeném API režimu.
Jinak klid. AGI is not near.
Screenshot
Screenshot není k dispozici
Metadata
| Platforma | Twitter (social) |
| Publikováno | 05.02.2026 21:07 |
| První viděn | 12.04.2026 05:40 |
| Poslední kontrola | 30.04.2026 21:18 |
| Počet slov | 0 |
| Hlídač ID | 912f099647e449aa1bd5ae4cea50a6fa |
| Original ID | 2019518341430554884 |
| Zdrojová URL | https://x.com/tangero/status/2019518341430554884 |