Příspěvek — Odstraněno.cz

Patrick Zandl

Česká pirátská strana

Twitter NEKONTROLOVÁNO

Obsah příspěvku

🤖 Každý Transformer, co kdy byl natrénovaný, má jeden hloupý zvyk.

Každá vrstva hodí svůj výstup na společnou hromadu. Vrstva 1, vrstva 2, vrstva 47. Všechno smíchané se stejnou váhou. Žádný výběr. Žádná priorita. Prostě sčítání. Takhle fungují reziduální spojení od roku 2017.

🇨🇳 Moonshot AI (lab za chatbotem Kimi) teď říká: co kdybychom na tohle použili attention, pozornost?

Nápad je skoro trapně jednoduchý. Místo slepého sčítání nechte každou vrstvu "attendovat" přes výstupy těch předchozích. Vrstva 30 si řekne: „Potřebuju 60 % z vrstvy 12, 30 % z vrstvy 22, zbytek zahoď." Stejný softmax attention, který znáte, jen aplikovaný přes hloubku sítě místo přes tokeny.

Dneska Moonshot vydal dokument popisující tuto technologii a postaral se tím o vzrušení na AI scéně. Jak to, že to nikoho nenapadlo před tím (napadlo, ale tady to dotáhli na velký model)?
Škálovací křivka odpovídá modelu trénovanému s 1,25× větším výkonem. A to je safra hodně!

A teď to, co na AI Twitteru nikdo nezmíní:
1️⃣Testováno výhradně na vlastní architektuře. Nulová nezávislá replikace.
2️⃣Vyžaduje to plný pretraining od nuly. Nelze nasadit na existující model.
3️⃣Ten násobek 1,25× je efektivita tréningu, ne rychlost inference.

Základní myšlenka je elegantní. Pozornost jsme aplikovali na tokeny, kanály, paměť. Aplikovat ji na hloubku sítě bylo na čase. Ale otázka není, jestli to funguje pro Kimi — otázka je, jestli se to replikuje nezávisle na jiných architekturách.
Do té doby: zajímavá hypotéza, ne definitivní výsledek.
Paper + kód: github.com/MoonshotAI/Attent…

Screenshot

Screenshot není k dispozici

Metadata

Platforma	Twitter (social)
Publikováno	16.03.2026 15:22
První viděn	12.04.2026 05:39
Poslední kontrola	dosud nekontrolováno
Počet slov	0
Hlídač ID	4ac844fe27c3754e6d59b721c81f5a72
Original ID	2033564616144359690
Zdrojová URL	https://x.com/tangero/status/2033564616144359690