Web bude brzy spuštěn veřejnosti. Nyní probíhá testovací provoz.
← Patrick Zandl
Patrick Zandl
Patrick Zandl
Česká pirátská strana
Twitter AKTIVNÍ

Obsah příspěvku

Opus 4.6 je venku a internet je plný "recenzí" od lidí, kteří přepsali release notes a přidali "I just tested it" do titulku. Takže co víme reálně? Anthropic tvrdí: +190 Elo nad 4.5, nejlepší Terminal-Bench, poráží GPT-5.2. Na jejich vlastních benchmarcích. Které selektivně vybírají. chybí MMLU, GPQA, HumanEval. Box (nezávisle) naměřil: z 58 % na 68 % na enterprise reasoning. Zajímavé, ale 68 % = pořád chyba v každé třetí úloze. Největší skok: Life Sciences 39 → 64 %. Nejslabší: Legal 51 %. Reálné novinky: 1M kontext, 128K output, paralelní agenti. Verdikt: solidní iterace, ne paradigm shift. Pokud jste na Opus 4.5 a pracujete s velkými codebases, upgrade dává smysl. Ale práci s 1M kontextem zatím lze otestovat jen v placeném API režimu. Jinak klid. AGI is not near.

Screenshot

Screenshot není k dispozici

Metadata

PlatformaTwitter (social)
Publikováno05.02.2026 21:07
První viděn12.04.2026 05:40
Poslední kontrola30.04.2026 21:18
Počet slov0
Hlídač ID912f099647e449aa1bd5ae4cea50a6fa
Original ID2019518341430554884
Zdrojová URLhttps://x.com/tangero/status/2019518341430554884