CausalGrok / code /experiments /causalgrok_camelyon_v2.py

Upload code/experiments

50fa85c verified 20 days ago

29.3 kB

	"""
	CausalGrok — Camelyon17 Training Loop v2
	Nilesh

	KEY CHANGE FROM v1:
	OOD test accuracy (H4 — unseen hospital) is now tracked at EVERY
	checkpoint, not just at the end. Grokking detection watches OOD acc,
	not ID val acc. This is the correct signal.

	The paper claim: after ID accuracy converges (fast, expected), the model
	undergoes a delayed phase transition in OOD generalization — grokking
	the cross-hospital invariant causal features. This co-occurs with a drop
	in IRM penalty. That is the grokking we care about for clinical deployment.

	Two curves to watch:
	val_acc (H3 ID val) — converges fast, expected ~0.86 by ep 50
	ood_acc (H4 OOD test) — should plateau then JUMP (the grokking)

	Run via:
	python -m experiments.causalgrok_camelyon_v2 --condition grokking --n_train 300
	"""

	from __future__ import annotations

	import argparse
	import json
	import os
	import time
	from datetime import datetime, timezone

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torchvision.transforms as transforms
	from torch.utils.data import DataLoader, Subset
	import timm
	try:
	import wandb
	except ImportError:
	wandb = None

	from utils.grokfast import gradfilter_ema
	from utils.camelyon_data import get_camelyon_subsets
	from utils.run_dir import make_run_dir, ensure_run_dir, save_config


	# ──────────────────────────────────────────────
	# CONFIG
	# ──────────────────────────────────────────────

	def get_config(condition):
	base = dict(
	seed=42, n_train=300, batch_size=32, img_size=96,
	n_classes=2, log_every=50,
	device="cuda" if torch.cuda.is_available() else "cpu",
	)
	if condition == "standard":
	base.update(dict(
	condition="standard",
	lr=1e-3, weight_decay=1e-4,
	# Default 3000 epochs to match grokking config and the
	# paper's reported runs; previously defaulted to 300 which
	# made the standard baseline trivially under-trained
	# relative to grokking. See paper Limitations §M3.
	n_epochs=3000, init_scale=1.0, use_grokfast=False,
	))
	elif condition == "grokking":
	base.update(dict(
	condition="grokking",
	lr=1e-3, weight_decay=5e-3,
	n_epochs=3000, init_scale=4.0, use_grokfast=True,
	grokfast_alpha=0.98, grokfast_lamb=2.0,
	))
	return base


	# ──────────────────────────────────────────────
	# WILDS-SAFE METRICS
	# All handle the (imgs, labels, metadata) 3-tuple WILDS batch format.
	# ──────────────────────────────────────────────

	@torch.no_grad()
	def accuracy_wilds(model, loader, device, max_samples=None):
	model.eval()
	correct = total = 0
	for batch in loader:
	imgs = batch[0].to(device)
	labels = batch[1].squeeze().long().to(device)
	preds = model(imgs).argmax(1)
	correct += (preds == labels).sum().item()
	total += labels.size(0)
	if max_samples and total >= max_samples:
	break
	return correct / max(total, 1)


	@torch.no_grad()
	def weight_norm_fn(model):
	return sum(p.data.norm(2).item() 2 for p in model.parameters()) 0.5


	@torch.no_grad()
	def feature_rank_wilds(model, loader, device, n=300):
	model.eval()
	feats = []

	def hook_fn(module, input, output):
	avg_pool = torch.nn.functional.adaptive_avg_pool2d(output, (1, 1))
	feats.append(avg_pool.view(avg_pool.size(0), -1).cpu())

	hook = model.layer4[-1].register_forward_hook(hook_fn)
	count = 0
	for batch in loader:
	model(batch[0].to(device))
	count += batch[0].size(0)
	if count >= n:
	break
	hook.remove()
	if not feats:
	return float("nan")
	F_mat = torch.cat(feats)[:n]
	try:
	_, s, _ = torch.svd(F_mat)
	s = s / (s.sum() + 1e-10)
	return torch.exp(-(s * torch.log(s + 1e-10)).sum()).item()
	except Exception:
	return float("nan")


	@torch.no_grad()
	def shortcut_ratio_wilds(model, loader, device, n_samples=200):
	"""
	Stain shortcut proxy: compare model confidence on center crop
	(tissue — causal features) vs. border region (stain — spurious).

	sc > 1.0 = relying on border stain more than tissue (shortcut)
	sc < 1.0 = relying on tissue center more than stain (causal)

	The transition from > 1.0 to < 1.0 during training is the
	attribution-level signature of the grokking transition.
	"""
	model.eval()
	cc, bc = [], []
	count = 0
	for batch in loader:
	if count >= n_samples:
	break
	imgs = batch[0].to(device)
	B, C, H, W = imgs.shape
	hs, he = H // 4, 3 * H // 4
	ws, we = W // 4, 3 * W // 4
	center = F.interpolate(
	imgs[:, :, hs:he, ws:we], size=(H, W),
	mode="bilinear", align_corners=False
	)
	border = imgs.clone()
	border[:, :, hs:he, ws:we] = 0.0
	cc.append(F.softmax(model(center), 1).max(1).values.mean().item())
	bc.append(F.softmax(model(border), 1).max(1).values.mean().item())
	count += imgs.size(0)
	cconf = float(np.mean(cc)) if cc else 0.5
	bconf = float(np.mean(bc)) if bc else 0.5
	return cconf, bconf


	def irm_penalty_wilds(model, envs, device):
	"""
	IRMv1 penalty across TRAINING hospital environments (H0-H2).
	Diagnostic version: uses create_graph=False, returns floats. Used as a
	monitoring metric only (logged per epoch).
	"""
	model.eval()
	penalties = []
	for env in envs:
	w = torch.tensor(1.0, requires_grad=True, device=device)
	logits = model(env["x"]) * w
	loss = F.cross_entropy(logits, env["y"])
	grad = torch.autograd.grad(loss, w, create_graph=False)[0]
	penalties.append(grad.item() ** 2)
	t = torch.tensor(penalties)
	return t.mean().item(), t.var().item()


	def irm_penalty_train_time(logits_list, y_list):
	"""
	IRMv1 penalty for use INSIDE the training loss (differentiable).
	Splits a batch by environment, computes per-env loss with a virtual
	scale variable, takes the squared gradient of each per-env loss w.r.t.
	that scale, returns the mean across envs.

	Args:
	logits_list: list of (per-env) logits tensors
	y_list: list of (per-env) label tensors

	Returns:
	scalar tensor (differentiable), the IRM penalty contribution.
	"""
	penalty = 0.0
	n = 0
	for logits, y in zip(logits_list, y_list):
	if logits.shape[0] == 0:
	continue
	scale = torch.tensor(1.0, requires_grad=True, device=logits.device)
	loss = F.cross_entropy(logits * scale, y)
	grad = torch.autograd.grad(loss, scale, create_graph=True)[0]
	penalty = penalty + grad ** 2
	n += 1
	if n == 0:
	return torch.tensor(0.0, device=logits_list[0].device)
	return penalty / n


	def eval_irm_penalty_wilds(model, id_val_loader, ood_test_loader, device):
	"""
	IRM penalty evaluated on HELD-OUT environments (H3 and H4).
	This avoids the measurement artifact of training on H0-H2 where loss→0.
	HIGH penalty = model relies on hospital-discriminating features = shortcuts.
	LOW penalty = model ignores hospital labels = causal features.
	"""
	model.eval()
	penalties = []

	# Create environment views from eval data
	for loader, hospital_label in [
	(id_val_loader, "H3"),
	(ood_test_loader, "H4"),
	]:
	xs, ys = [], []
	count = 0
	with torch.no_grad():
	for batch in loader:
	imgs = batch[0].to(device)
	labels = batch[1].squeeze().long().to(device)
	xs.append(model(imgs))
	ys.append(labels)
	count += imgs.size(0)
	if count >= 500:
	break
	if xs:
	x = torch.cat(xs)
	y = torch.cat(ys)
	w = torch.tensor(1.0, requires_grad=True, device=device)
	logits = x * w
	loss = F.cross_entropy(logits, y)
	try:
	grad = torch.autograd.grad(loss, w, create_graph=False)[0]
	penalties.append(grad.item() ** 2)
	except:
	penalties.append(float("nan"))

	if penalties and not any(np.isnan(p) for p in penalties):
	return float(np.mean(penalties)), float(np.var(penalties))
	else:
	return float("nan"), float("nan")


	# ──────────────────────────────────────────────
	# DATA
	# ──────────────────────────────────────────────

	class TransformWrapper:
	def __init__(self, dataset, transform):
	self.dataset = dataset
	self.transform = transform
	def __len__(self):
	return len(self.dataset)
	def __getitem__(self, idx):
	img, label, metadata = self.dataset[idx]
	return self.transform(img), label, metadata


	def get_dataloaders(cfg, data_root):
	transform = transforms.Compose([
	transforms.Resize((cfg["img_size"], cfg["img_size"])),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])

	train_ds, id_val_ds, ood_test_ds, _ = get_camelyon_subsets(
	root_dir=data_root, download=True)

	# Subsample training set
	torch.manual_seed(cfg["seed"])
	indices = torch.randperm(len(train_ds))[:cfg["n_train"]]
	train_subset = Subset(train_ds, indices)

	# Wrap with TransformWrapper to apply transforms
	train_subset = TransformWrapper(train_subset, transform)
	id_val_ds = TransformWrapper(id_val_ds, transform)
	ood_test_ds = TransformWrapper(ood_test_ds, transform)

	train_loader = DataLoader(train_subset, batch_size=cfg["batch_size"],
	shuffle=True, num_workers=0, pin_memory=True)
	id_val_loader = DataLoader(id_val_ds, batch_size=256,
	shuffle=False, num_workers=0, pin_memory=True)
	ood_test_loader = DataLoader(ood_test_ds, batch_size=256,
	shuffle=False, num_workers=0, pin_memory=True)

	return train_loader, id_val_loader, ood_test_loader, train_subset


	def get_hospital_environments(train_subset, device):
	"""
	Build IRM environments from ground-truth hospital labels.
	Returns list of {x, y} dicts — one per unique hospital in the subset.
	Hospitals in Camelyon17 train split: 0, 1, 2.
	"""
	loader = DataLoader(train_subset, batch_size=512,
	shuffle=False, num_workers=4)
	all_imgs, all_labels, all_meta = [], [], []
	for imgs, labels, meta in loader:
	all_imgs.append(imgs)
	all_labels.append(labels.squeeze().long())
	all_meta.append(meta)

	all_imgs = torch.cat(all_imgs)
	all_labels = torch.cat(all_labels)
	hospitals = torch.cat(all_meta)[:, 0].long() # field 0 = hospital ID

	envs = []
	for h in torch.unique(hospitals):
	mask = hospitals == h
	n = mask.sum().item()
	envs.append({
	"x": all_imgs[mask].to(device),
	"y": all_labels[mask].to(device),
	"hospital": int(h),
	})
	pos_rate = all_labels[mask].float().mean().item()
	print(f" Env hospital={int(h)}: {n} samples, "
	f"positive rate={pos_rate:.2f}")
	return envs


	# ──────────────────────────────────────────────
	# MODEL
	# ──────────────────────────────────────────────

	def build_model(cfg):
	model = timm.create_model("resnet18", pretrained=False,
	num_classes=cfg["n_classes"])
	if cfg["init_scale"] != 1.0:
	with torch.no_grad():
	for name, p in model.named_parameters():
	if "weight" in name and p.dim() > 1:
	p.data *= cfg["init_scale"]
	return model.to(cfg["device"])


	# ──────────────────────────────────────────────
	# TRAIN
	# ──────────────────────────────────────────────

	def train(cfg, model, train_loader, id_val_loader, ood_test_loader,
	envs, optimizer, run_dir):

	criterion = nn.CrossEntropyLoss()
	grads_ema = None
	history = []
	best_id_val = 0.0
	best_ood = 0.0
	peak_ood_epoch = None # Epoch where best_ood was achieved
	grok_epoch = None
	irm_base = None
	history_path = os.path.join(run_dir, "results", "history.json")
	grad_clip = cfg.get("grad_clip", 1.0)

	# Grokking detection parameters.
	# We watch OOD accuracy (H4), not ID val accuracy (H3).
	# ID val converges fast (expected). OOD is what should grok.
	plateau_window = 10
	plateau_eps = 0.01

	# Ungrokking early stopping parameters.
	# If OOD peaks then declines, stop at the peak rather than training to convergence.
	ood_patience = cfg.get("ood_patience", 20) # checkpoints to wait before stopping
	ood_min_delta = cfg.get("ood_min_delta", 0.01) # minimum improvement threshold
	use_ood_early_stop = cfg.get("use_ood_early_stop", False)

	print(f"\n{'='*60}")
	print(f" {cfg['condition'].upper()} \| Camelyon17 v2 \| {cfg['n_epochs']} epochs")
	print(f" WD={cfg['weight_decay']} \| α={cfg['init_scale']} \| n={cfg['n_train']}")
	print(f" Tracking: ID val (H3) + OOD test (H4) at every checkpoint")
	print(f" Grokking detection: watching OOD acc, not ID val acc")
	print(f" IRM envs: {len(envs)} hospitals")
	print(f"{'='*60}", flush=True)

	irm_weight = float(cfg.get("irm_weight", 0.0))
	use_irm_in_loss = irm_weight > 0.0
	if use_irm_in_loss:
	print(f" IRM-in-loss: ENABLED, alpha={irm_weight}", flush=True)
	else:
	print(f" IRM-in-loss: disabled (CE-only training; IRM penalty is diagnostic)", flush=True)

	for epoch in range(1, cfg["n_epochs"] + 1):
	# ── Train step ────────────────────────────────────────────────
	model.train()
	loss_sum = n_b = 0
	for imgs, labels, metadata in train_loader:
	imgs = imgs.to(cfg["device"])
	labels = labels.squeeze().long().to(cfg["device"])
	optimizer.zero_grad()
	logits = model(imgs)
	ce_loss = criterion(logits, labels)

	if use_irm_in_loss:
	# Split this batch by training hospital (H0/H1/H2) and
	# compute IRMv1 penalty as a differentiable scalar.
	hosp_ids = metadata[:, 0].long().to(cfg["device"])
	logits_per_env, y_per_env = [], []
	for h in [0, 1, 2]:
	mask = (hosp_ids == h)
	if mask.sum() < 2:
	continue
	logits_per_env.append(logits[mask])
	y_per_env.append(labels[mask])
	if len(logits_per_env) >= 2:
	irm_term = irm_penalty_train_time(logits_per_env, y_per_env)
	loss = ce_loss + irm_weight * irm_term
	else:
	loss = ce_loss
	else:
	loss = ce_loss

	loss.backward()
	if cfg.get("use_grokfast"):
	grads_ema = gradfilter_ema(
	model, grads_ema,
	alpha=cfg.get("grokfast_alpha", 0.98),
	lamb=cfg.get("grokfast_lamb", 2.0))
	if grad_clip > 0:
	torch.nn.utils.clip_grad_norm_(
	model.parameters(), max_norm=grad_clip)
	optimizer.step()
	loss_sum += loss.item()
	n_b += 1

	# ── Checkpoint metrics ────────────────────────────────────────
	if epoch % cfg["log_every"] == 0 or epoch == 1:
	tr_acc = accuracy_wilds(model, train_loader, cfg["device"])
	id_acc = accuracy_wilds(model, id_val_loader, cfg["device"])
	ood_acc = accuracy_wilds(model, ood_test_loader, cfg["device"]) # KEY
	wn = weight_norm_fn(model)
	fr = feature_rank_wilds(model, id_val_loader, cfg["device"])
	irm_m, irm_v = irm_penalty_wilds(model, envs, cfg["device"])
	cconf, bconf = shortcut_ratio_wilds(
	model, id_val_loader, cfg["device"])

	if irm_base is None:
	irm_base = irm_m

	# ── OOD grokking detection ────────────────────────────────
	# Require sustained plateau in OOD acc before the jump.
	# The ID val acc plateau is expected and not grokking.
	if grok_epoch is None and len(history) >= plateau_window:
	last = history[-plateau_window:]
	ref = last[-1]["ood_acc"]
	flat = sum(1 for r in last
	if abs(r["ood_acc"] - ref) < plateau_eps)
	if flat >= plateau_window - 2 and ood_acc > best_ood + 0.05:
	grok_epoch = epoch
	irm_drop = (irm_base - irm_m) / (irm_base + 1e-8) * 100
	print(f"\n * OOD GROKKING at epoch {epoch} *")
	print(f" OOD: {best_ood:.3f} → {ood_acc:.3f} \| "
	f"IRM drop: {irm_drop:.1f}%", flush=True)

	if id_acc > best_id_val: best_id_val = id_acc
	if ood_acc > best_ood:
	best_ood = ood_acc
	peak_ood_epoch = epoch # Track when peak was achieved

	sc_ratio = min(bconf / (cconf + 1e-8), 10.0)

	# OOD gap: how much worse is OOD vs ID?
	# This should shrink at the grokking transition.
	ood_gap = id_acc - ood_acc

	row = dict(
	epoch = epoch,
	train_loss = loss_sum / n_b,
	train_acc = tr_acc,
	id_val_acc = id_acc,
	ood_acc = ood_acc, # ← primary grokking signal
	ood_gap = ood_gap, # ← should narrow at transition
	weight_norm = wn,
	feature_rank = fr,
	irm_mean = irm_m,
	irm_var = irm_v,
	center_conf = cconf,
	border_conf = bconf,
	shortcut_ratio = sc_ratio,
	grokking_detected = grok_epoch is not None,
	)
	history.append(row)
	if wandb:
	wandb.log(row)

	with open(history_path, "w") as f:
	json.dump(history, f, indent=2)

	# Save periodic checkpoint for M1 analysis (every 200 epochs)
	if epoch % 200 == 0:
	ckpt_dir = os.path.join(run_dir, "checkpoints")
	os.makedirs(ckpt_dir, exist_ok=True)
	ckpt_path = os.path.join(ckpt_dir, f"ep{epoch:05d}.pt")
	torch.save(model.state_dict(), ckpt_path)
	print(f" ✓ Checkpoint → ep{epoch:05d}.pt", flush=True)

	# ── OOD-aware early stopping (if ungrokking detected) ───────
	# If OOD peaks then declines, stop at the peak rather than full epochs.
	if use_ood_early_stop and peak_ood_epoch is not None and len(history) >= ood_patience:
	recent_ood = [r["ood_acc"] for r in history[-ood_patience:]]
	ood_trend = max(recent_ood) - min(recent_ood)

	if ood_acc < best_ood - ood_min_delta:
	print(f"\n * EARLY STOP (OOD declining) at epoch {epoch} *", flush=True)
	print(f" Peak OOD: {best_ood:.4f} at epoch {peak_ood_epoch}", flush=True)
	print(f" Current: {ood_acc:.4f} ({ood_acc-best_ood:+.4f})", flush=True)

	# Save peak checkpoint separately for clinical deployment
	if peak_ood_epoch and peak_ood_epoch % 200 == 0:
	peak_src = os.path.join(run_dir, "checkpoints", f"ep{peak_ood_epoch:05d}.pt")
	peak_dst = os.path.join(run_dir, "checkpoints", "peak_ood.pt")
	if os.path.exists(peak_src):
	import shutil
	shutil.copy(peak_src, peak_dst)
	print(f" Saved peak → checkpoints/peak_ood.pt", flush=True)

	break # Exit training loop

	print(f" ep {epoch:5d} \| "
	f"tr {tr_acc:.3f} \| "
	f"id {id_acc:.3f} \| "
	f"ood {ood_acc:.3f} \| "
	f"gap {ood_gap:+.3f} \| " # + means OOD worse than ID
	f"‖W‖ {wn:.1f} \| "
	f"rank {fr:.1f} \| "
	f"IRM {irm_m:.4f} \| "
	f"sc {sc_ratio:.2f}x",
	flush=True)

	# ── Final summary ─────────────────────────────────────────────────
	# One final OOD eval at the very end
	final_ood = accuracy_wilds(model, ood_test_loader, cfg["device"])
	if wandb:
	wandb.log({"final_ood_acc": final_ood,
	"grokking_epoch": grok_epoch or -1})

	# Decision numbers
	irm_drop_pct = float("nan")
	irm_drop_ep = epoch_gap = -1
	if history:
	irm0 = history[0]["irm_mean"]
	irm_min = min(r["irm_mean"] for r in history)
	if irm0:
	irm_drop_pct = (irm0 - irm_min) / (irm0 + 1e-8) * 100
	if len(history) > 1:
	biggest = 0.0
	for prev, cur in zip(history[:-1], history[1:]):
	d = abs(cur["irm_mean"] - prev["irm_mean"])
	if d > biggest:
	biggest = d
	irm_drop_ep = cur["epoch"]
	if grok_epoch and irm_drop_ep > 0:
	epoch_gap = abs(grok_epoch - irm_drop_ep)

	# OOD grokking: did OOD acc improve significantly after ID convergence?
	# Measure: max OOD acc in last 20% of training vs. OOD acc when ID
	# first plateaued (epoch ~200-300 for standard training).
	ood_early = np.mean([r["ood_acc"] for r in history[:5]]) if history else 0
	ood_late = np.mean([r["ood_acc"] for r in history[-5:]]) if history else 0
	ood_improvement = ood_late - ood_early

	# Ungrokking detection: did OOD collapse after peaking?
	ood_delta = final_ood - best_ood # Negative = ungrokking

	summary = dict(
	run_id = cfg["run_id"],
	condition = cfg["condition"],
	n_train = cfg["n_train"],
	seed = cfg["seed"],
	best_id_val = best_id_val,
	best_ood = best_ood,
	peak_ood_epoch = peak_ood_epoch or -1, # When peak was achieved
	final_ood = final_ood,
	ood_delta = ood_delta, # final - best (ungrokking signal)
	ood_improvement = ood_improvement, # ← key: did OOD grok?
	grokking_epoch = grok_epoch or -1,
	irm_drop_pct = irm_drop_pct,
	irm_drop_epoch = irm_drop_ep,
	epoch_gap = epoch_gap,
	final_weight_norm = history[-1]["weight_norm"] if history else None,
	final_feature_rank= history[-1]["feature_rank"] if history else None,
	final_irm = history[-1]["irm_mean"] if history else None,
	final_shortcut_ratio = history[-1]["shortcut_ratio"] if history else None,
	final_ood_gap = history[-1]["ood_gap"] if history else None,
	)
	with open(os.path.join(run_dir, "results", "summary.json"), "w") as f:
	json.dump(summary, f, indent=2)

	torch.save(model.state_dict(),
	os.path.join(run_dir, "checkpoints", "final.pt"))

	print(f"\n Best ID val (H3): {best_id_val:.4f}")
	print(f" Best OOD (H4): {best_ood:.4f}")
	print(f" OOD improvement: {ood_improvement:+.4f} ← did OOD grok?")
	print(f" Grokking at: {grok_epoch}")
	print(f" IRM drop: {irm_drop_pct:.1f}%",
	flush=True)
	return history


	# ──────────────────────────────────────────────
	# MAIN
	# ──────────────────────────────────────────────

	def main():
	p = argparse.ArgumentParser()
	p.add_argument("--condition", default="grokking",
	choices=["standard", "grokking"])
	p.add_argument("--n_train", type=int, default=300)
	p.add_argument("--seed", type=int, default=42)
	p.add_argument("--log_every", type=int, default=50)
	p.add_argument("--wandb_project", default="causalgrok")
	p.add_argument("--wandb_mode", default="offline",
	choices=["online", "offline", "disabled"])
	p.add_argument("--run_dir", default=None)
	p.add_argument("--data_root", default="data/wilds")
	p.add_argument("--weight_decay", type=float, default=None)
	p.add_argument("--init_scale", type=float, default=None)
	p.add_argument("--n_epochs", type=int, default=None)
	p.add_argument("--lr", type=float, default=None)
	p.add_argument("--grokfast", choices=["on", "off"], default=None)
	p.add_argument("--grad_clip", type=float, default=1.0)
	p.add_argument("--irm_weight", type=float, default=0.0,
	help="IRMv1 penalty weight added to training loss "
	"(0 = pure cross-entropy / diagnostic-only IRM).")
	args = p.parse_args()

	cfg = get_config(args.condition)
	cfg.update(n_train=args.n_train, seed=args.seed,
	log_every=args.log_every, grad_clip=args.grad_clip)

	if args.weight_decay is not None: cfg["weight_decay"] = args.weight_decay
	if args.init_scale is not None: cfg["init_scale"] = args.init_scale
	if args.n_epochs is not None: cfg["n_epochs"] = args.n_epochs
	if args.lr is not None: cfg["lr"] = args.lr
	if args.grokfast is not None: cfg["use_grokfast"] = (args.grokfast == "on")
	cfg["irm_weight"] = args.irm_weight

	if cfg["device"] == "cuda":
	torch.set_float32_matmul_precision("high")
	torch.backends.cudnn.benchmark = True
	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True

	torch.manual_seed(cfg["seed"])
	np.random.seed(cfg["seed"])

	if args.run_dir is None:
	run_dir, run_id = make_run_dir(
	["camelyon_v2", cfg["condition"],
	f"n{cfg['n_train']}", f"s{cfg['seed']}"])
	else:
	run_dir = args.run_dir
	ensure_run_dir(run_dir)
	run_id = os.path.basename(os.path.normpath(run_dir))

	cfg["run_id"] = run_id
	cfg["run_dir"] = run_dir
	save_config(cfg, run_dir)

	if wandb:
	wandb.init(project=args.wandb_project, config=cfg, name=run_id,
	mode=args.wandb_mode, dir=run_dir)

	print(f"\nDevice: {cfg['device']}")
	print(f"Run ID: {run_id}")
	print(f"Started: {datetime.now(timezone.utc).isoformat()}", flush=True)

	train_loader, id_val_loader, ood_test_loader, train_subset = \
	get_dataloaders(cfg, args.data_root)

	envs = get_hospital_environments(train_subset, cfg["device"])
	model = build_model(cfg)

	print(f"Train: {len(train_subset)} \| "
	f"ID val (H3): {len(id_val_loader.dataset)} \| "
	f"OOD test (H4): {len(ood_test_loader.dataset)}")
	print(f"Params: {sum(p.numel() for p in model.parameters()):,}",
	flush=True)

	optimizer = torch.optim.AdamW(
	model.parameters(),
	lr=cfg["lr"], weight_decay=cfg["weight_decay"])

	t0 = time.time()
	train(cfg, model, train_loader, id_val_loader, ood_test_loader,
	envs, optimizer, run_dir)
	print(f"\nWall time: {(time.time()-t0)/60:.1f} min", flush=True)
	if wandb:
	wandb.finish()


	if __name__ == "__main__":
	main()