TMax

community

AI & ML interests

None defined yet.

Recent Activity

osieosie updated a dataset 13 days ago

TMaxxx/TMax-SFT-16.5K-Env

osieosie published a dataset 13 days ago

TMaxxx/TMax-SFT-16.5K-Env

osieosie updated a dataset 13 days ago

TMaxxx/TMax-15K-Harbor

View all activity

updated a dataset 13 days ago

TMaxxx/TMax-SFT-16.5K-Env

Viewer • Updated 13 days ago • 2.2k • 32

published a dataset 13 days ago

TMaxxx/TMax-SFT-16.5K-Env

Viewer • Updated 13 days ago • 2.2k • 32

updated a dataset 13 days ago

TMaxxx/TMax-15K-Harbor

Viewer • Updated 13 days ago • 14.6k • 36

published a dataset 13 days ago

TMaxxx/TMax-15K-Harbor

Viewer • Updated 13 days ago • 14.6k • 36

updated a dataset 13 days ago

TMaxxx/TMax-15K

Viewer • Updated 13 days ago • 14.6k • 29

published a dataset 13 days ago

TMaxxx/TMax-15K

Viewer • Updated 13 days ago • 14.6k • 29

authored a paper about 2 months ago

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Paper • 2511.19399 • Published Nov 24, 2025 • 63

authored a paper 2 months ago

The ATOM Report: Measuring the Open Language Model Ecosystem

Paper • 2604.07190 • Published Apr 8 • 5

submitted a paper to Daily Papers 4 months ago

Learning to Detect Language Model Training Data via Active Reconstruction

Paper • 2602.19020 • Published Feb 22 • 2

authored a paper 6 months ago

Olmo 3

Paper • 2512.13961 • Published Dec 15, 2025 • 36

authored 2 papers 7 months ago

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

Paper • 2511.07317 • Published Nov 10, 2025 • 18

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Paper • 2511.19399 • Published Nov 24, 2025 • 63

authored a paper about 1 year ago

ReasonIR: Training Retrievers for Reasoning Tasks

Paper • 2504.20595 • Published Apr 29, 2025 • 54

authored a paper about 1 year ago

Reinforcement Learning from Human Feedback

Paper • 2504.12501 • Published Apr 16, 2025 • 4

authored 3 papers over 1 year ago

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning

Paper • 2408.10075 • Published Aug 19, 2024

2 OLMo 2 Furious

Paper • 2501.00656 • Published Dec 31, 2024 • 22

Large-Scale Data Selection for Instruction Tuning

Paper • 2503.01807 • Published Mar 3, 2025 • 14

authored 3 papers over 1 year ago

Objective Mismatch in Model-based Reinforcement Learning

Paper • 2002.04523 • Published Feb 11, 2020

Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings

Paper • 2308.00862 • Published Aug 1, 2023

A Survey on Data Selection for Language Models

Paper • 2402.16827 • Published Feb 26, 2024 • 4