Patrick Zandl
Česká pirátská strana
Twitter
NEKONTROLOVÁNO
Obsah příspěvku
🤖 Každý Transformer, co kdy byl natrénovaný, má jeden hloupý zvyk.
Každá vrstva hodí svůj výstup na společnou hromadu. Vrstva 1, vrstva 2, vrstva 47. Všechno smíchané se stejnou váhou. Žádný výběr. Žádná priorita. Prostě sčítání. Takhle fungují reziduální spojení od roku 2017.
🇨🇳 Moonshot AI (lab za chatbotem Kimi) teď říká: co kdybychom na tohle použili attention, pozornost?
Nápad je skoro trapně jednoduchý. Místo slepého sčítání nechte každou vrstvu "attendovat" přes výstupy těch předchozích. Vrstva 30 si řekne: „Potřebuju 60 % z vrstvy 12, 30 % z vrstvy 22, zbytek zahoď." Stejný softmax attention, který znáte, jen aplikovaný přes hloubku sítě místo přes tokeny.
Dneska Moonshot vydal dokument popisující tuto technologii a postaral se tím o vzrušení na AI scéně. Jak to, že to nikoho nenapadlo před tím (napadlo, ale tady to dotáhli na velký model)?
Škálovací křivka odpovídá modelu trénovanému s 1,25× větším výkonem. A to je safra hodně!
A teď to, co na AI Twitteru nikdo nezmíní:
1️⃣Testováno výhradně na vlastní architektuře. Nulová nezávislá replikace.
2️⃣Vyžaduje to plný pretraining od nuly. Nelze nasadit na existující model.
3️⃣Ten násobek 1,25× je efektivita tréningu, ne rychlost inference.
Základní myšlenka je elegantní. Pozornost jsme aplikovali na tokeny, kanály, paměť. Aplikovat ji na hloubku sítě bylo na čase. Ale otázka není, jestli to funguje pro Kimi — otázka je, jestli se to replikuje nezávisle na jiných architekturách.
Do té doby: zajímavá hypotéza, ne definitivní výsledek.
Paper + kód: github.com/MoonshotAI/Attent…
Screenshot
Screenshot není k dispozici
Metadata
| Platforma | Twitter (social) |
| Publikováno | 16.03.2026 15:22 |
| První viděn | 12.04.2026 05:39 |
| Poslední kontrola | dosud nekontrolováno |
| Počet slov | 0 |
| Hlídač ID | 4ac844fe27c3754e6d59b721c81f5a72 |
| Original ID | 2033564616144359690 |
| Zdrojová URL | https://x.com/tangero/status/2033564616144359690 |