"""Generate a contribution-focused evolution atlas.

The page answers one question per milestone: compared with the prior reference
point, what was the smallest conceptual/algorithmic contribution that mattered?
It avoids ranking by benchmark numbers and instead visualizes mechanism deltas.
"""

from __future__ import annotations

import json


MILESTONES = [
    # Robot learning
    ("robot", 1989, "Q-Learning", "Dynamic programming", "learn Q from samples instead of a known model", "Bellman backup becomes data-driven control", "value"),
    ("robot", 1992, "REINFORCE", "Value iteration", "optimize policy probabilities directly", "gradient pushes high-return actions up", "policy"),
    ("robot", 2016, "GAIL", "MaxEnt IRL", "replace explicit reward recovery with adversarial occupancy matching", "discriminator becomes imitation reward", "adversarial"),
    ("robot", 2018, "SAC", "DDPG / TD3", "add maximum-entropy objective to off-policy actor-critic", "exploration is part of the objective", "actorcritic"),
    ("robot", 2020, "CQL", "Naive offline actor-critic", "penalize unsupported high Q values", "offline RL becomes pessimistic", "offline"),
    ("robot", 2021, "Decision Transformer", "Offline RL critics", "cast return-conditioned control as sequence modeling", "RL log becomes a language-model dataset", "tokens"),
    ("robot", 2023, "Diffusion Policy", "MSE behavioral cloning", "model multimodal action distributions by denoising action chunks", "avoid averaging left/right demonstrations", "denoise"),
    ("robot", 2024, "OpenVLA", "RT-2-style closed VLAs", "open VLM-to-action recipe with tokenized actions", "VLA becomes reproducible", "vla"),
    ("robot", 2024, "pi0", "Tokenized action VLAs", "use flow matching for continuous high-precision action chunks", "VLA action head becomes generative continuous control", "flow"),
    ("robot", 2025, "GR00T / Helix / Gemini Robotics", "single-arm VLA demos", "scale VLA recipes toward humanoid, dual-system, and broader embodied deployment", "foundation policies become systems", "stack"),
    # VLM
    ("vlm", 2021, "CLIP", "supervised vision labels", "align images and text contrastively at web scale", "image classifiers become text-queryable encoders", "contrast"),
    ("vlm", 2022, "Flamingo", "CLIP retrieval/captioning", "insert gated cross-attention into frozen LLMs", "LLMs can read interleaved images", "cross"),
    ("vlm", 2023, "BLIP-2", "full VLM finetuning", "use Q-Former as a small trainable visual bottleneck", "frozen vision + frozen LLM become cheap to connect", "qformer"),
    ("vlm", 2023, "LLaVA", "heavy bridge modules", "simple MLP projector plus visual instruction tuning", "open VLM assistant recipe becomes simple", "projector"),
    ("vlm", 2023, "Grounding DINO", "fixed-label detection", "ground arbitrary text phrases to boxes", "VLM perception becomes open-vocabulary and spatial", "ground"),
    ("vlm", 2024, "LLaVA-NeXT / Qwen2-VL", "fixed low-res image tokens", "process high-resolution images by tiling or dynamic resolution", "small text and dense charts become visible", "anyres"),
    ("vlm", 2024, "Chameleon / GPT-4o style native multimodal", "late-fusion VLMs", "train a model on mixed-modal token streams from the start", "multimodal shifts from adapter to native model", "native"),
    ("vlm", 2025, "Efficient / MoE VLMs", "single dense giant VLMs", "route visual-language computation selectively", "quality-cost tradeoff becomes architectural", "moe"),
    # World models
    ("world", 2018, "World Models", "model-free policy search", "train controller inside learned VAE+RNN dreams", "world model becomes a training environment", "world"),
    ("world", 2019, "PlaNet", "modular VAE/RNN dreams", "RSSM latent dynamics plus CEM planning", "latent planning from pixels becomes practical", "latent"),
    ("world", 2020, "Dreamer", "PlaNet online CEM", "amortize behavior learning with actor-critic in imagination", "dreams train policies, not just evaluate plans", "dream"),
    ("world", 2020, "MuZero", "pixel/world reconstruction", "learn value-equivalent latent dynamics for search", "model only needs to predict what planning uses", "mcts"),
    ("world", 2022, "IRIS", "continuous latent RSSM", "tokenize frames and train a transformer next-token world model", "world modeling adopts the language-model recipe", "tokens"),
    ("world", 2023, "GAIA-1", "game/Atari token WMs", "scale autoregressive world models to driving video with action/text conditioning", "driving simulation becomes generative", "video"),
    ("world", 2023, "I-JEPA", "pixel reconstruction", "predict abstract latent features instead of pixels", "representation prediction competes with generation", "jepa"),
    ("world", 2025, "V-JEPA 2-AC", "passive video JEPA", "add a thin action-conditioned predictor for robot planning", "passive video features become controllable for robotics", "jepa_action"),
    ("world", 2025, "World Action Models", "action-conditioned simulators", "generate successful future plus actions", "world model also becomes policy proposal", "wam"),
    ("world", 2025, "Cosmos / Genie / interactive worlds", "offline video prediction", "make video worlds controllable, interactive, and useful for data generation", "world models become infrastructure", "interactive"),
]


SOURCES = [
    ("CLIP", "https://arxiv.org/abs/2103.00020"),
    ("Flamingo", "https://arxiv.org/abs/2204.14198"),
    ("BLIP-2", "https://arxiv.org/abs/2301.12597"),
    ("LLaVA", "https://arxiv.org/abs/2304.08485"),
    ("Grounding DINO", "https://arxiv.org/abs/2303.05499"),
    ("Diffusion Policy", "https://arxiv.org/abs/2303.04137"),
    ("Decision Transformer", "https://arxiv.org/abs/2106.01345"),
    ("Dreamer", "https://arxiv.org/abs/1912.01603"),
    ("MuZero", "https://arxiv.org/abs/1911.08265"),
    ("V-JEPA 2", "https://ai.meta.com/vjepa/"),
    ("World Models", "https://worldmodels.github.io/"),
]


def build_data():
    return {
        "milestones": [
            {
                "track": tr,
                "year": year,
                "name": name,
                "prev": prev,
                "delta": delta,
                "meaning": meaning,
                "anim": anim,
            }
            for tr, year, name, prev, delta, meaning, anim in MILESTONES
        ],
        "sources": [{"title": t, "url": u} for t, u in SOURCES],
    }


TEMPLATE = r"""<!doctype html>
<html lang="zh-CN"><head>
<meta charset="utf-8"/><meta name="viewport" content="width=device-width, initial-scale=1"/>
<title>Contribution Atlas</title>
<style>
  :root{--bg:#070b16;--panel:#0b1326;--ink:#e7ecf6;--mut:#93a0bd;--line:#243554;--gold:#fbbf24;--blue:#58a6ff;--green:#34d399;--pink:#fb7185}
  *{box-sizing:border-box} html,body{margin:0;background:var(--bg);color:var(--ink);font-family:Inter,-apple-system,BlinkMacSystemFont,"Segoe UI",sans-serif;overflow-x:hidden}
  .wrap{max-width:1380px;margin:0 auto;padding:18px}.top{display:flex;align-items:end;gap:14px;flex-wrap:wrap;margin-bottom:12px}
  h1{margin:0;font-size:23px;background:linear-gradient(90deg,#a78bfa,#67e8f9);-webkit-background-clip:text;background-clip:text;color:transparent}.sub{color:var(--mut);font-size:13px;max-width:900px}
  .tabs{display:flex;gap:7px;flex-wrap:wrap;margin:10px 0 14px}.tabs button{border:1px solid var(--line);background:#0d1730;color:#cbd5e1;border-radius:999px;padding:7px 12px;cursor:pointer}.tabs button.on{background:linear-gradient(90deg,#7c3aed,#0ea5e9);color:white;border-color:transparent}
  .main{display:grid;grid-template-columns:minmax(0,1fr) 380px;gap:16px}.panel{background:linear-gradient(180deg,#0c1326,#091020);border:1px solid #16203a;border-radius:12px;padding:15px}
  canvas{width:100%;display:block;background:#07101f;border:1px solid var(--line);border-radius:10px}.side h2{margin:0 0 6px;font-size:22px}.year{color:var(--gold);font-weight:850}.prev{color:#93c5fd;font-size:13px;margin-top:8px}.delta{font-size:18px;line-height:1.35;margin:13px 0}.meaning{color:#cbd5e1;line-height:1.5}.steps{display:grid;gap:6px;max-height:450px;overflow:auto;margin-top:14px}.step{border:1px solid #223252;border-radius:8px;background:#0a1224;color:#cbd5e1;text-align:left;padding:8px;cursor:pointer}.step.on{border-color:var(--gold);background:#171407;color:white}.refs{display:grid;grid-template-columns:repeat(2,minmax(0,1fr));gap:7px;margin-top:12px}.refs a{border:1px solid #223252;border-radius:8px;background:#0d1730;color:#cbd5e1;padding:7px 8px;font-size:12px;text-decoration:none}
  .ctrl{display:flex;gap:10px;justify-content:center;margin-top:12px}.ctrl button{border:1px solid var(--line);border-radius:8px;background:#101a31;color:#e7ecf6;padding:7px 18px;cursor:pointer}
  @media(max-width:900px){.main{grid-template-columns:1fr}.refs{grid-template-columns:1fr}}
</style></head><body>
<div class="wrap">
  <div class="top"><h1>Contribution Atlas</h1><div class="sub">按时间播放 Robot / VLM / World Model 代表工作。每一步只回答：相对前一代表作，最小关键贡献是什么；避免用噪声实验数值替代理解。</div></div>
  <div class="tabs" id="tabs"></div>
  <div class="main"><div class="panel"><canvas id="cv" width="1400" height="760"></canvas><div class="ctrl"><button id="prev">← Prev</button><button id="play">Pause</button><button id="next">Next →</button></div></div>
  <aside class="panel side"><div class="year" id="year"></div><h2 id="name"></h2><div class="prev" id="prevwork"></div><div class="delta" id="delta"></div><div class="meaning" id="meaning"></div><div class="steps" id="steps"></div><div class="refs" id="refs"></div></aside></div>
</div>
<script>
const D=__DATA_JSON__; let track='all', idx=0, playing=true, clock=0,last=0;
const cv=document.getElementById('cv'), c=cv.getContext('2d'), W=700,H=380;
const colors={robot:'#f97316',vlm:'#38bdf8',world:'#a78bfa'};
function esc(s){return String(s||'').replace(/&/g,'&amp;').replace(/</g,'&lt;').replace(/>/g,'&gt;')}
function list(){return D.milestones.filter(m=>track==='all'||m.track===track).sort((a,b)=>a.year-b.year)}
function init(){const ts=['all','robot','vlm','world'];document.getElementById('tabs').innerHTML=ts.map(t=>`<button class="${t===track?'on':''}" data-t="${t}">${t==='all'?'All':t}</button>`).join('');document.querySelectorAll('#tabs button').forEach(b=>b.onclick=()=>{track=b.dataset.t;idx=0;init();show()});document.getElementById('prev').onclick=()=>{idx=(idx-1+list().length)%list().length;playing=false;show()};document.getElementById('next').onclick=()=>{idx=(idx+1)%list().length;playing=false;show()};document.getElementById('play').onclick=()=>{playing=!playing;document.getElementById('play').textContent=playing?'Pause':'Play'};document.getElementById('refs').innerHTML=D.sources.map(s=>`<a target="_blank" href="${s.url}">${esc(s.title)} ↗</a>`).join('');show();requestAnimationFrame(loop)}
function show(){const arr=list(), m=arr[idx];document.getElementById('year').textContent=m.year+' · '+m.track.toUpperCase();document.getElementById('name').textContent=m.name;document.getElementById('prevwork').textContent='Compared with: '+m.prev;document.getElementById('delta').textContent=m.delta;document.getElementById('meaning').textContent=m.meaning;document.getElementById('steps').innerHTML=arr.map((x,i)=>`<button class="step ${i===idx?'on':''}" data-i="${i}"><b>${x.year}</b> · ${esc(x.name)}<br><span style="color:var(--mut)">${esc(x.delta)}</span></button>`).join('');document.querySelectorAll('.step').forEach(b=>b.onclick=()=>{idx=+b.dataset.i;playing=false;show()});clock=0}
function ease(t){return t<.5?4*t*t*t:1-Math.pow(-2*t+2,3)/2}
function clamp(t){return Math.max(0,Math.min(1,t))}
function bg(){c.setTransform(2,0,0,2,0,0);const g=c.createRadialGradient(350,190,30,350,190,420);g.addColorStop(0,'#0b1832');g.addColorStop(.58,'#07101f');g.addColorStop(1,'#050914');c.fillStyle=g;c.fillRect(0,0,W,H);c.strokeStyle='rgba(148,163,184,.05)';for(let x=40;x<W;x+=40){c.beginPath();c.moveTo(x,70);c.lineTo(x,340);c.stroke()}}
function txt(s,x,y,col='#e7ecf6',sz=13,al='center',w='550'){c.fillStyle=col;c.font=`${w} ${sz}px Inter,sans-serif`;c.textAlign=al;c.fillText(s,x,y)}
function box(x,y,w,h,label,col,on=true){if(on){c.shadowColor=col;c.shadowBlur=14}c.beginPath();c.roundRect(x,y,w,h,9);c.fillStyle=on?'#101a31':'#0a1224';c.fill();c.strokeStyle=col;c.lineWidth=on?2:1;c.stroke();c.shadowBlur=0;wrap(label,x+w/2,y+h/2+4,w-18,on?'#fff':'#64748b',12)}
function arrow(x1,y1,x2,y2,col,prog=1){const e=ease(prog),mx=(x1+x2)/2,px=x1+(x2-x1)*e,py=y1+(y2-y1)*e;c.strokeStyle=col;c.lineWidth=3;c.lineCap='round';c.beginPath();c.moveTo(x1,y1);c.bezierCurveTo(mx,y1,mx,y2,px,py);c.stroke();if(e>.96){const a=Math.atan2(y2-y1,x2-x1);c.fillStyle=col;c.beginPath();c.moveTo(x2,y2);c.lineTo(x2-9*Math.cos(a-.35),y2-9*Math.sin(a-.35));c.lineTo(x2-9*Math.cos(a+.35),y2-9*Math.sin(a+.35));c.fill()}}
function pulse(x,y,col){const t=(clock%1250)/1250;c.globalAlpha=.34*(1-t);c.fillStyle=col;c.beginPath();c.arc(x,y,8+24*ease(t),0,7);c.fill();c.globalAlpha=1;c.beginPath();c.arc(x,y,7,0,7);c.fill()}
function draw(){bg();const arr=list(), m=arr[idx], col=colors[m.track]||'#fbbf24', p=(clock%2600)/2600,e=ease(p);txt('Previous work',150,42,'#93a0bd',13);txt('New work',550,42,'#93a0bd',13);box(55,78,190,70,m.prev,'#334155');box(455,78,190,70,m.name,col);arrow(245,113,455,113,col,e);pulse(245+210*e,113,col);txt('minimal contribution delta',350,94,'#fbbf24',12);wrap(m.delta,350,185,430,col,16);drawAnim(m.anim,col,e);wrap(m.meaning,350,334,540,'#cbd5e1',13)}
function wrap(s,x,y,max,col,sz){const words=s.split(' ');let line='',yy=y;c.font=`${sz}px Inter`;c.textAlign='center';c.fillStyle=col;for(const w of words){const t=line?line+' '+w:w;if(c.measureText(t).width>max){c.fillText(line,x,yy);line=w;yy+=sz+6}else line=t} if(line)c.fillText(line,x,yy)}
function miniBox(x,y,w,h,label,col,on){c.beginPath();c.roundRect(x,y,w,h,7);c.fillStyle=on?'rgba(251,191,36,.12)':'#0d1730';c.fill();c.strokeStyle=on?col:'#334155';c.lineWidth=on?2:1;c.stroke();txt(label,x+w/2,y+h/2+4,on?col:'#cbd5e1',11,'center',on?'750':'550')}
function drawAnim(a,col,p){
  if(a==='tokens'||a==='vla'||a==='native'||a==='moe'){
    miniBox(105,230,90,40,'context',col,true); for(let i=0;i<8;i++){miniBox(215+i*39,235,30,30,(a==='vla'?'a':'t')+i,col,p>i/9)} miniBox(548,230,60,40,a==='moe'?'route':'out',col,p>.75); txt(a==='native'?'mixed image+text token stream':'sequence model contribution',350,304,'#93a0bd',12);
  }else if(a==='denoise'||a==='flow'){
    c.strokeStyle='rgba(148,163,184,.35)';c.lineWidth=2;c.setLineDash([5,6]);c.beginPath();c.moveTo(135,285);c.bezierCurveTo(230,220,420,296,560,210);c.stroke();c.setLineDash([]);c.strokeStyle=col;c.lineWidth=3;c.beginPath();c.moveTo(135,285);c.bezierCurveTo(230,220,420,296,560,210);c.stroke();for(let i=0;i<10;i++){const t=clamp(p-i*.045);pulse(145+i*43,278+Math.sin(i*1.8)*38*(1-t),col)}txt(a==='flow'?'straight velocity field, fewer generation steps':'denoise multimodal action chunks',350,304,'#93a0bd',12);
  }else if(a==='world'||a==='dream'||a==='latent'||a==='video'||a==='interactive'||a==='jepa'||a==='jepa_action'||a==='wam'){
    const labs=a==='wam'?['scene','future','actions','policy']:a==='jepa'||a==='jepa_action'?['visible','latent','predict','plan']:['obs','latent','future','plan']; for(let i=0;i<4;i++){miniBox(150+i*96,228-i*18,76,40,labs[i],col,p>.13*i)} if(a==='interactive'){for(let i=0;i<3;i++)pulse(210+i*120,290-i*18,col)} txt(a==='jepa'?'predict latent features, not pixels':a==='wam'?'future video and actions become one proposal':'world model becomes simulator / training environment',350,314,'#93a0bd',12);
  }else if(a==='cross'||a==='qformer'||a==='projector'||a==='ground'||a==='anyres'){
    miniBox(90,235,92,40,a==='anyres'?'tiles':'image',col,true); miniBox(284,235,96,40,a==='qformer'?'Q-Former':a==='projector'?'MLP':'bridge',col,p>.25); miniBox(500,235,92,40,a==='ground'?'boxes':'LLM',col,p>.55); arrow(182,255,284,255,col,p); arrow(380,255,500,255,col,p); if(a==='ground'){c.strokeStyle=col;c.lineWidth=2;c.strokeRect(122,244,34,22);c.strokeRect(526,244,38,22)} txt('where visual information enters the language model',350,312,'#93a0bd',12);
  }else{
    for(let i=0;i<5;i++){arrow(155+i*78,270,200+i*70,230,col,clamp(p+i*.05));} txt('objective or controller update changes the behavior field',350,310,'#93a0bd',12);
  }
}
function loop(now){if(!last)last=now;const dt=now-last;last=now;if(playing){clock+=dt;if(clock>5200){idx=(idx+1)%list().length;show()}}draw();requestAnimationFrame(loop)}
window.onload=init;
</script></body></html>"""


def render():
    return TEMPLATE.replace("__DATA_JSON__", json.dumps(build_data(), ensure_ascii=False))


if __name__ == "__main__":
    with open("robot_contribution_atlas.html", "w", encoding="utf-8") as f:
        f.write(render())
    print("Wrote robot_contribution_atlas.html")