Add files using upload-large-folder tool

Browse files

Files changed (10) hide show

.gitattributes +2 -0
assets/foundation-pipelines/README.md +16 -16
assets/foundation-pipelines/human-video-world-model-pipeline.png +2 -2
assets/foundation-pipelines/prompts.md +19 -44
assets/foundation-pipelines/source-photos/human-video-world-model-source.jpg +3 -0
assets/foundation-pipelines/source-photos/vision-language-action-source.jpg +3 -0
assets/foundation-pipelines/spatial-intelligence-pipeline.png +2 -2
assets/foundation-pipelines/vision-language-action-pipeline.png +2 -2
docs/data/research_roadmap_interactive.json +4 -4
docs/data/scope_claims_audit.json +1 -1

.gitattributes CHANGED Viewed

@@ -63,3 +63,5 @@ assets/foundation-pipelines/human-video-world-model-pipeline.png filter=lfs diff
 assets/foundation-pipelines/vision-language-action-pipeline.png filter=lfs diff=lfs merge=lfs -text
 assets/foundation-pipelines/spatial-intelligence-pipeline.png filter=lfs diff=lfs merge=lfs -text
 results/omni_finetune/xperience10m_128ep_dense_multiscale_hierarchical_v1_20260608/dense_multiscale_windows.jsonl filter=lfs diff=lfs merge=lfs -text

 assets/foundation-pipelines/vision-language-action-pipeline.png filter=lfs diff=lfs merge=lfs -text
 assets/foundation-pipelines/spatial-intelligence-pipeline.png filter=lfs diff=lfs merge=lfs -text
 results/omni_finetune/xperience10m_128ep_dense_multiscale_hierarchical_v1_20260608/dense_multiscale_windows.jsonl filter=lfs diff=lfs merge=lfs -text
+assets/foundation-pipelines/source-photos/human-video-world-model-source.jpg filter=lfs diff=lfs merge=lfs -text
+assets/foundation-pipelines/source-photos/vision-language-action-source.jpg filter=lfs diff=lfs merge=lfs -text

assets/foundation-pipelines/README.md CHANGED Viewed

@@ -1,21 +1,21 @@
-# Foundation Pipeline Task-Training Diagrams
-These three bitmap figures are task-training diagrams for the foundation
-pipeline tracks documented in `THREE_FOUNDATION_PIPELINES.md` and
 `docs/data/three_foundation_pipelines.json`.
-They replace the earlier concept-art images. Each diagram spells out the
-direction, supported task targets, model-training route, and evaluation gates.
-They are still **pipeline communication assets**, not evidence of completed
-foundation-model quality. Exact technical claims live in the surrounding
-Markdown, JSON, and website labels.
-| Track | Asset |
-| --- | --- |
-| Spatial intelligence models | `spatial-intelligence-pipeline.png` |
-| Human-video world models | `human-video-world-model-pipeline.png` |
-| Vision-language-action models | `vision-language-action-pipeline.png` |
-The deterministic rendering script is
-`scripts/render_foundation_pipeline_diagrams.py`; prompt and image-generation
-notes are in `prompts.md`.

+# Foundation Pipeline Presentation Photos
+These three public images are restored high-resolution photos from the
+foundation-direction presentation slides. They are used for the pipeline tracks
+documented in `THREE_FOUNDATION_PIPELINES.md` and
 `docs/data/three_foundation_pipelines.json`.
+They replace the earlier concept-art images and keep the public visuals tied to
+the original direction slides. They are still **pipeline communication
+assets**, not evidence of completed foundation-model quality. Exact technical
+claims live in the surrounding Markdown, JSON, and website labels.
+| Track | Enhanced asset | Source photo |
+| --- | --- | --- |
+| Spatial intelligence models | `spatial-intelligence-pipeline.png` | `source-photos/spatial-intelligence-source.jpg` |
+| Human-video world models | `human-video-world-model-pipeline.png` | `source-photos/human-video-world-model-source.jpg` |
+| Vision-language-action models | `vision-language-action-pipeline.png` | `source-photos/vision-language-action-source.jpg` |
+The deterministic restoration script is
+`scripts/render_foundation_pipeline_diagrams.py`; restoration notes and source
+photo mapping are in `prompts.md`.

assets/foundation-pipelines/human-video-world-model-pipeline.png CHANGED Viewed

Git LFS Details

SHA256: 220d234b91176cdbd904a66a55deaf096805fc955094f529e7c5d8f35b03bab1
Pointer size: 131 Bytes
Size of remote file: 250 kB

Git LFS Details

SHA256: b1fa6c17db40756557dbf45bbfd0bfaf4178cd06f2ddd87d4e03a39da18187c0
Pointer size: 132 Bytes
Size of remote file: 2.38 MB

assets/foundation-pipelines/prompts.md CHANGED Viewed

@@ -1,49 +1,24 @@
-# Foundation Pipeline Diagram Prompts
-The first public pass used ChatGPT image-generated concept visuals. The second
-pass uses the same direction prompts for visual exploration, then renders the
-final public PNGs with `scripts/render_foundation_pipeline_diagrams.py` so the
-task names, model-training route, and evaluation gates stay exact and readable.
-## Spatial Intelligence
-Use case: infographic-diagram. Asset type: 16:9 website figure for Ropedia
-Xperience-10M foundation pipeline track. Create a structured diagram, not
-concept art, for a spatial intelligence model training direction. Show four
-left-to-right zones: inputs, task targets, model training, and evaluation
-gates. The content should represent multiview RGB, egocentric video, depth,
-camera pose, calibration, object/contact/language cues, spatial QA, object
-counting, object permanence, relative location, multiview retrieval, 3D
-consistency, spatial-memory encoders, and held-out episode metrics. Use a
-premium dark research-product style, high contrast, crisp panels, clean
-technical linework, no decorative blobs, no logos, no watermark.
-## Human-Video World Models
-Use case: infographic-diagram. Asset type: 16:9 website figure for Ropedia
-Xperience-10M foundation pipeline track. Create a structured diagram, not
-concept art, for a human-video world-model training direction. Show four
-left-to-right zones: observed interaction inputs, future task targets, model
-training, and held-out future evaluation. The content should represent
-observed video/audio/sensor windows, hand/body motion, camera pose,
-object/contact state, action/subtask labels, next action, next subtask, future
-object set, contact transition, camera-motion delta, latent future state, Qwen
-structured future probes, Cosmos/dynamics branches, rollout or latent
-reconstruction, no future leakage, and future-task metrics. Use a premium dark
-research-product style, high contrast, crisp panels, clean technical linework,
-no decorative blobs, no logos, no watermark.
-## Vision-Language-Action
-Use case: infographic-diagram. Asset type: 16:9 website figure for Ropedia
-Xperience-10M foundation pipeline track. Create a structured diagram, not
-concept art, for a vision-language-action model training direction. Show four
-left-to-right zones: observation/language inputs, action task targets,
-VLA/policy-compatible training, and held-out action evaluation. The content
-should represent egocentric video, captions, objects, contacts, procedures,
-hand/body motion windows, subtask labels, action-token vocabulary, next action,
-action chunks, object-conditioned action, contact state, subtask transition,
-action-space conversion, normalization, leakage and retargeting reports, VLA
-or policy heads, and held-out policy/action metrics. Use a premium dark
-research-product style, high contrast, crisp panels, clean technical linework,
-no decorative blobs, no logos, no watermark.

+# Foundation Pipeline Photo Restoration Notes
+The current public assets are not generated concept art. They are restored
+high-resolution PNGs rebuilt from original presentation photos supplied by the
+project owner. The filename is kept as `prompts.md` because older public
+manifests and mirrors already link here as the provenance note.
+| Track | Source photo | Enhanced public PNG |
+| --- | --- | --- |
+| Spatial intelligence models | `source-photos/spatial-intelligence-source.jpg` | `spatial-intelligence-pipeline.png` |
+| Human-video world models | `source-photos/human-video-world-model-source.jpg` | `human-video-world-model-pipeline.png` |
+| Vision-language-action models | `source-photos/vision-language-action-source.jpg` | `vision-language-action-pipeline.png` |
+Restoration is deterministic and local:
+- EXIF orientation normalization.
+- Autocontrast and moderate brightness/color/contrast correction.
+- Lanczos resize to a 2560-pixel public width.
+- Gentle sharpening and unsharp masking.
+The restoration script deliberately does not synthesize, redraw, or hallucinate
+slide text. Technical task/training/evaluation claims are maintained in
+`THREE_FOUNDATION_PIPELINES.md` and
+`docs/data/three_foundation_pipelines.json`.

assets/foundation-pipelines/source-photos/human-video-world-model-source.jpg ADDED Viewed

Git LFS Details

SHA256: 5cc1f72aea8da58a269c02e862b7ac8e473b1bf832e9093b3b40b710906b1552
Pointer size: 131 Bytes
Size of remote file: 124 kB

assets/foundation-pipelines/source-photos/vision-language-action-source.jpg ADDED Viewed

Git LFS Details

SHA256: eb5222e6f7be01f1f9e4950a1c30d9216149812e92c54cedbcadcecfbfe901e9
Pointer size: 131 Bytes
Size of remote file: 117 kB

assets/foundation-pipelines/spatial-intelligence-pipeline.png CHANGED Viewed

Git LFS Details

SHA256: 61b51641b4d2af8f87f02683fd6d2a578e3fd1ceabda5667c00c968e13b40ee7
Pointer size: 131 Bytes
Size of remote file: 253 kB

Git LFS Details

SHA256: db944bd538ed5dc70e2342fa523ce3543b8ae8017b8c9a572d3423e74e413f1c
Pointer size: 132 Bytes
Size of remote file: 2.13 MB

assets/foundation-pipelines/vision-language-action-pipeline.png CHANGED Viewed

Git LFS Details

SHA256: 2efa63a771a9f5abf119207022a6a64a2b6763e529327399dff901d44d9b52d9
Pointer size: 131 Bytes
Size of remote file: 256 kB

Git LFS Details

SHA256: d4704ee28f747067c440845905cf2cacf6cbbf3fd5d17418ba16993f617ade29
Pointer size: 132 Bytes
Size of remote file: 2.91 MB

docs/data/research_roadmap_interactive.json CHANGED Viewed

@@ -2222,7 +2222,7 @@
     ],
     "status": "planning_artifact"
   },
-  "generated_at_utc": "2026-06-17T16:20:57+00:00",
   "omni_plan": {
     "adapter": "LoRA rank 16, alpha 32, dropout 0.05",
     "backbone": "Qwen/Qwen3-Omni-30B-A3B-Instruct",
@@ -3307,7 +3307,7 @@
         "diagram_image": "docs/assets/foundation-pipelines/spatial-intelligence-pipeline.png",
         "first_pipeline": "Build a spatial-memory exporter, start with metric depth and pose consistency tasks, then evaluate spatial QA, object permanence, counting, retrieval, and pose-aware consistency.",
         "id": "spatial_intelligence",
-        "image_alt": "Task-training diagram for the spatial intelligence pipeline: inputs, spatial task targets, model training route, and evaluation gates.",
         "intermediate_artifacts": [
           "synchronized camera window manifest",
           "pose and depth availability report",
@@ -3386,7 +3386,7 @@
         "diagram_image": "docs/assets/foundation-pipelines/human-video-world-model-pipeline.png",
         "first_pipeline": "Keep Qwen-style structured future probes for task interpretability, keep Cosmos-style dynamics branches separate, and add latent or feature-reconstruction metrics before claiming world-model quality.",
         "id": "human_video_world_models",
-        "image_alt": "Task-training diagram for the human-video world model pipeline: observed-window inputs, future targets, model training route, and held-out evaluation gates.",
         "intermediate_artifacts": [
           "observed and future window pairs",
           "future label targets",
@@ -3463,7 +3463,7 @@
         "diagram_image": "docs/assets/foundation-pipelines/vision-language-action-pipeline.png",
         "first_pipeline": "Define the action space, use existing 20-task next-action/contact/object-conditioned tasks first, then add hand-trajectory or policy-compatible action chunks after conversion is traceable.",
         "id": "vision_language_action",
-        "image_alt": "Task-training diagram for the vision-language-action pipeline: observation and language inputs, action targets, VLA training route, and action evaluation gates.",
         "intermediate_artifacts": [
           "action-token vocabulary",
           "action-chunk windows",

     ],
     "status": "planning_artifact"
   },
+  "generated_at_utc": "2026-06-18T08:24:55+00:00",
   "omni_plan": {
     "adapter": "LoRA rank 16, alpha 32, dropout 0.05",
     "backbone": "Qwen/Qwen3-Omni-30B-A3B-Instruct",
         "diagram_image": "docs/assets/foundation-pipelines/spatial-intelligence-pipeline.png",
         "first_pipeline": "Build a spatial-memory exporter, start with metric depth and pose consistency tasks, then evaluate spatial QA, object permanence, counting, retrieval, and pose-aware consistency.",
         "id": "spatial_intelligence",
+        "image_alt": "Restored presentation photo showing the Spatial intelligence models direction slide for Xperience-10M.",
         "intermediate_artifacts": [
           "synchronized camera window manifest",
           "pose and depth availability report",
         "diagram_image": "docs/assets/foundation-pipelines/human-video-world-model-pipeline.png",
         "first_pipeline": "Keep Qwen-style structured future probes for task interpretability, keep Cosmos-style dynamics branches separate, and add latent or feature-reconstruction metrics before claiming world-model quality.",
         "id": "human_video_world_models",
+        "image_alt": "Restored presentation photo showing the Human-video world models direction slide for Xperience-10M.",
         "intermediate_artifacts": [
           "observed and future window pairs",
           "future label targets",
         "diagram_image": "docs/assets/foundation-pipelines/vision-language-action-pipeline.png",
         "first_pipeline": "Define the action space, use existing 20-task next-action/contact/object-conditioned tasks first, then add hand-trajectory or policy-compatible action chunks after conversion is traceable.",
         "id": "vision_language_action",
+        "image_alt": "Restored presentation photo showing the Vision-language-action models direction slide for Xperience-10M.",
         "intermediate_artifacts": [
           "action-token vocabulary",
           "action-chunk windows",

docs/data/scope_claims_audit.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "status": "pass",
-  "generated_at_utc": "2026-06-18T07:15:50+00:00",
   "summary": {
     "qwen3_omni_verified_diagnostic_pilot": true,
     "dataset_manifest_num_episodes": 119,

 {
   "status": "pass",
+  "generated_at_utc": "2026-06-18T08:27:01+00:00",
   "summary": {
     "qwen3_omni_verified_diagnostic_pilot": true,
     "dataset_manifest_num_episodes": 119,