retinasense-vit / knowledge_distillation.py

Add knowledge_distillation.py

a15da2f verified 3 months ago

14.9 kB

	#!/usr/bin/env python3
	"""
	RetinaSense v3.0 — Phase 4A: Knowledge Distillation + ONNX Export
	==================================================================
	Distills ViT-Base (86M, 331MB) → ViT-Tiny (5.7M, ~23MB)
	Then exports to ONNX and quantizes to INT8 (~6MB)

	Target: Student retains >95% of teacher performance
	Expected: 55x size reduction, ~4x inference speedup on CPU
	"""

	import os, json, time, warnings, numpy as np, pandas as pd
	warnings.filterwarnings('ignore')

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.amp import autocast, GradScaler
	from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler
	from torchvision import transforms
	import timm
	from sklearn.metrics import f1_score, classification_report, roc_auc_score
	from sklearn.preprocessing import label_binarize

	OUTPUT_DIR = './outputs_v3/compressed'
	os.makedirs(OUTPUT_DIR, exist_ok=True)

	DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	IMG_SIZE = 224
	N_CLASSES = 5
	CLASS_NAMES= ['Normal', 'Diabetes/DR', 'Glaucoma', 'Cataract', 'AMD']
	BATCH_SIZE = 64
	N_EPOCHS = 50
	PATIENCE = 10
	KD_ALPHA = 0.3 # weight for hard label CE loss
	KD_TEMP = 4.0 # temperature for soft targets
	BASE_LR = 3e-4
	NUM_WORKERS= 4

	with open('./data/fundus_norm_stats.json') as f:
	ns = json.load(f)
	NORM_MEAN, NORM_STD = ns['mean_rgb'], ns['std_rgb']

	with open('./outputs_v3/temperature.json') as f:
	T_OPT = json.load(f)['temperature']

	print('=' * 65)
	print(' RetinaSense v3.0 — Knowledge Distillation')
	print('=' * 65)
	print(f' Teacher : ViT-Base/16 (86M params, 331MB)')
	print(f' Student : ViT-Tiny/16 (5.7M params, ~23MB)')
	print(f' KD temp : {KD_TEMP} alpha: {KD_ALPHA}')
	print(f' Device : {DEVICE}')


	# ================================================================
	# TEACHER MODEL
	# ================================================================
	class MultiTaskViT(nn.Module):
	def __init__(self):
	super().__init__()
	self.backbone = timm.create_model('vit_base_patch16_224', pretrained=False, num_classes=0)
	self.drop = nn.Dropout(0.3)
	self.disease_head = nn.Sequential(
	nn.Linear(768, 512), nn.BatchNorm1d(512), nn.ReLU(), nn.Dropout(0.3),
	nn.Linear(512, 256), nn.BatchNorm1d(256), nn.ReLU(), nn.Dropout(0.2),
	nn.Linear(256, N_CLASSES))
	self.severity_head = nn.Sequential(
	nn.Linear(768, 256), nn.BatchNorm1d(256), nn.ReLU(), nn.Dropout(0.3),
	nn.Linear(256, 5))
	def forward(self, x):
	f = self.backbone(x); f = self.drop(f)
	return self.disease_head(f), self.severity_head(f)

	teacher = MultiTaskViT().to(DEVICE)
	ckpt = torch.load('./outputs_v3/best_model.pth', map_location=DEVICE, weights_only=False)
	teacher.load_state_dict(ckpt['model_state_dict'])
	teacher.eval()
	for p in teacher.parameters():
	p.requires_grad_(False)
	print(f'\n Teacher loaded (epoch {ckpt["epoch"]+1}, F1={ckpt["macro_f1"]:.4f})')


	# ================================================================
	# STUDENT MODEL (ViT-Tiny)
	# ================================================================
	class StudentViT(nn.Module):
	def __init__(self):
	super().__init__()
	self.backbone = timm.create_model('vit_tiny_patch16_224', pretrained=True, num_classes=0)
	feat_dim = 192 # ViT-Tiny hidden dim
	self.drop = nn.Dropout(0.2)
	self.disease_head = nn.Sequential(
	nn.Linear(feat_dim, 256), nn.BatchNorm1d(256), nn.ReLU(), nn.Dropout(0.2),
	nn.Linear(256, N_CLASSES))
	def forward(self, x):
	f = self.backbone(x)
	f = self.drop(f)
	return self.disease_head(f)

	student = StudentViT().to(DEVICE)
	student_params = sum(p.numel() for p in student.parameters())
	teacher_params = sum(p.numel() for p in teacher.parameters())
	print(f' Teacher params: {teacher_params:,}')
	print(f' Student params: {student_params:,} ({100*student_params/teacher_params:.1f}% of teacher)')


	# ================================================================
	# DATA
	# ================================================================
	def _cache_key(path):
	stem = os.path.splitext(os.path.basename(path))[0]
	return os.path.join('./preprocessed_cache_v3', f'{stem}_{IMG_SIZE}.npy')

	def make_transforms(phase):
	norm = transforms.Normalize(NORM_MEAN, NORM_STD)
	if phase == 'train':
	return transforms.Compose([
	transforms.ToPILImage(),
	transforms.RandomHorizontalFlip(),
	transforms.RandomVerticalFlip(p=0.3),
	transforms.RandomRotation(15),
	transforms.ColorJitter(brightness=0.2, contrast=0.2),
	transforms.ToTensor(), norm])
	return transforms.Compose([transforms.ToPILImage(), transforms.ToTensor(), norm])

	class RetinalDataset(Dataset):
	def __init__(self, df, transform):
	self.df = df.reset_index(drop=True)
	self.transform = transform
	def __len__(self): return len(self.df)
	def __getitem__(self, idx):
	row = self.df.iloc[idx]
	cache_fp = row.get('cache_path', _cache_key(row['image_path']))
	try:
	img = np.load(cache_fp)
	except Exception:
	img = np.zeros((IMG_SIZE, IMG_SIZE, 3), dtype=np.uint8)
	return (self.transform(img),
	torch.tensor(int(row['disease_label']), dtype=torch.long))

	train_df = pd.read_csv('./data/train_split.csv')
	calib_df = pd.read_csv('./data/calib_split.csv')
	test_df = pd.read_csv('./data/test_split.csv')

	# Use train+calib for distillation
	kd_df = pd.concat([train_df, calib_df], ignore_index=True)

	labels = kd_df['disease_label'].values
	cnts = np.bincount(labels, minlength=N_CLASSES).astype(float)
	cnts = np.where(cnts == 0, 1.0, cnts)
	w = 1.0 / cnts[labels]
	sampler = WeightedRandomSampler(torch.DoubleTensor(w), len(w), replacement=True)

	train_ds = RetinalDataset(kd_df, make_transforms('train'))
	test_ds = RetinalDataset(test_df, make_transforms('val'))
	train_loader = DataLoader(train_ds, batch_size=BATCH_SIZE, sampler=sampler,
	num_workers=NUM_WORKERS, pin_memory=True,
	persistent_workers=True, prefetch_factor=2)
	test_loader = DataLoader(test_ds, batch_size=BATCH_SIZE, shuffle=False,
	num_workers=NUM_WORKERS, pin_memory=True,
	persistent_workers=True)
	print(f'\n KD train: {len(kd_df)} \| Test: {len(test_df)}')


	# ================================================================
	# KNOWLEDGE DISTILLATION TRAINING
	# ================================================================
	def kd_loss(student_logits, teacher_logits, true_labels, alpha=KD_ALPHA, T=KD_TEMP):
	"""
	KD loss = alpha * CE(student, hard_labels) + (1-alpha) * KL(student/T, teacher/T)
	The KL term encourages student to match teacher's soft probability distribution.
	"""
	ce_hard = F.cross_entropy(student_logits, true_labels)
	student_soft = F.log_softmax(student_logits / T, dim=1)
	teacher_soft = F.softmax(teacher_logits / T, dim=1)
	kl = F.kl_div(student_soft, teacher_soft, reduction='batchmean') * (T ** 2)
	return alpha * ce_hard + (1 - alpha) * kl

	optimizer = torch.optim.AdamW(student.parameters(), lr=BASE_LR, weight_decay=1e-4)
	scheduler = torch.optim.lr_scheduler.OneCycleLR(
	optimizer, max_lr=BASE_LR, steps_per_epoch=len(train_loader),
	epochs=N_EPOCHS, pct_start=0.1, anneal_strategy='cos',
	div_factor=10.0, final_div_factor=100.0)
	scaler = GradScaler()

	best_f1, best_state, patience_ctr = 0.0, None, 0
	print(f'\n Training student for {N_EPOCHS} epochs...\n')

	for epoch in range(N_EPOCHS):
	student.train()
	run_loss = correct = total = 0

	for imgs, labels in train_loader:
	imgs = imgs.to(DEVICE, non_blocking=True)
	labels = labels.to(DEVICE, non_blocking=True)

	with torch.no_grad():
	with autocast('cuda'):
	t_logits, _ = teacher(imgs)

	with autocast('cuda'):
	s_logits = student(imgs)
	loss = kd_loss(s_logits, t_logits, labels)

	scaler.scale(loss).backward()
	scaler.unscale_(optimizer)
	torch.nn.utils.clip_grad_norm_(student.parameters(), 1.0)
	scaler.step(optimizer); scaler.update()
	scheduler.step(); optimizer.zero_grad(set_to_none=True)

	run_loss += loss.item()
	correct += (s_logits.argmax(1) == labels).sum().item()
	total += labels.size(0)

	# Evaluate
	student.eval()
	all_preds, all_labels, all_probs = [], [], []
	with torch.no_grad():
	for imgs, lbl in test_loader:
	imgs = imgs.to(DEVICE)
	with autocast('cuda'):
	logits = student(imgs)
	probs = torch.softmax(logits.float() / T_OPT, dim=1)
	all_preds.extend(logits.argmax(1).cpu().numpy())
	all_labels.extend(lbl.numpy())
	all_probs.extend(probs.cpu().numpy())

	preds = np.array(all_preds)
	targets = np.array(all_labels)
	mf1 = f1_score(targets, preds, average='macro')
	acc = 100 * (preds == targets).mean()

	tag = ''
	if mf1 > best_f1 + 0.001:
	best_f1 = mf1; patience_ctr = 0
	best_state = {k: v.cpu().clone() for k, v in student.state_dict().items()}
	tag = f' * BEST'
	else:
	patience_ctr += 1

	if (epoch + 1) % 5 == 0 or tag:
	print(f' E{epoch+1:02d} \| Loss {run_loss/len(train_loader):.3f} \| '
	f'Acc {acc:.1f}% \| mF1 {mf1:.4f}{tag}')

	if patience_ctr >= PATIENCE:
	print(f' Early stop at epoch {epoch+1}')
	break

	# Save best student
	student_path = os.path.join(OUTPUT_DIR, 'student_vit_tiny.pth')
	torch.save({'model_state_dict': best_state, 'macro_f1': best_f1,
	'architecture': 'vit_tiny_patch16_224'}, student_path)
	print(f'\n Student saved -> {student_path} ({os.path.getsize(student_path)/1e6:.1f} MB)')


	# ================================================================
	# COMPARE TEACHER VS STUDENT
	# ================================================================
	print('\n Comparing Teacher vs Student on test set...')

	student.load_state_dict(best_state)
	student.eval()

	def get_preds(mdl, loader, is_teacher=False):
	all_p, all_l, all_pr = [], [], []
	with torch.no_grad():
	for imgs, lbl in loader:
	imgs = imgs.to(DEVICE)
	with autocast('cuda'):
	out = mdl(imgs)
	logits = out[0] if is_teacher else out
	probs = torch.softmax(logits.float() / T_OPT, dim=1)
	all_p.extend(logits.argmax(1).cpu().numpy())
	all_l.extend(lbl.numpy())
	all_pr.extend(probs.cpu().numpy())
	return np.array(all_p), np.array(all_l), np.array(all_pr)

	t_preds, t_labels, t_probs = get_preds(teacher, test_loader, is_teacher=True)
	s_preds, s_labels, s_probs = get_preds(student, test_loader, is_teacher=False)

	def metrics(preds, labels, probs, name):
	acc = 100 * (preds == labels).mean()
	mf1 = f1_score(labels, preds, average='macro')
	try:
	mauc = roc_auc_score(label_binarize(labels, classes=range(N_CLASSES)),
	probs, multi_class='ovr', average='macro')
	except:
	mauc = 0.0
	print(f'\n [{name}]')
	print(f' Accuracy: {acc:.2f}% \| Macro F1: {mf1:.4f} \| AUC: {mauc:.4f}')
	print(classification_report(labels, preds, target_names=CLASS_NAMES, digits=3))
	return {'accuracy': acc, 'macro_f1': mf1, 'macro_auc': mauc}

	m_teacher = metrics(t_preds, t_labels, t_probs, 'Teacher (ViT-Base)')
	m_student = metrics(s_preds, s_labels, s_probs, 'Student (ViT-Tiny)')
	retention = m_student['macro_f1'] / m_teacher['macro_f1'] * 100
	print(f'\n Performance retention: {retention:.1f}%')
	print(f' Size reduction: {os.path.getsize("./outputs_v3/best_model.pth")/1e6:.0f}MB → {os.path.getsize(student_path)/1e6:.0f}MB')


	# ================================================================
	# ONNX EXPORT
	# ================================================================
	print('\n Exporting student to ONNX...')
	student.eval()
	dummy = torch.randn(1, 3, IMG_SIZE, IMG_SIZE).to(DEVICE)

	onnx_path = os.path.join(OUTPUT_DIR, 'retinasense_student.onnx')
	torch.onnx.export(
	student, dummy, onnx_path,
	export_params=True,
	opset_version=17,
	do_constant_folding=True,
	input_names=['fundus_image'],
	output_names=['disease_logits'],
	dynamic_axes={
	'fundus_image': {0: 'batch_size'},
	'disease_logits': {0: 'batch_size'},
	}
	)
	print(f' ONNX saved -> {onnx_path} ({os.path.getsize(onnx_path)/1e6:.1f} MB)')

	# Verify ONNX
	try:
	import onnx
	model_onnx = onnx.load(onnx_path)
	onnx.checker.check_model(model_onnx)
	print(' ONNX verification: PASSED')
	except Exception as e:
	print(f' ONNX verification warning: {e}')

	# INT8 quantization
	try:
	from onnxruntime.quantization import quantize_dynamic, QuantType
	int8_path = os.path.join(OUTPUT_DIR, 'retinasense_student_int8.onnx')
	quantize_dynamic(onnx_path, int8_path, weight_type=QuantType.QInt8)
	print(f' INT8 model -> {int8_path} ({os.path.getsize(int8_path)/1e6:.1f} MB)')
	except Exception as e:
	print(f' INT8 quantization error: {e}')

	# ONNX runtime benchmark
	try:
	import onnxruntime as ort
	sess = ort.InferenceSession(onnx_path, providers=['CPUExecutionProvider'])
	dummy_np = np.random.randn(1, 3, IMG_SIZE, IMG_SIZE).astype(np.float32)

	# Warmup
	for _ in range(5):
	sess.run(None, {'fundus_image': dummy_np})

	# Benchmark
	n = 50
	t0 = time.time()
	for _ in range(n):
	sess.run(None, {'fundus_image': dummy_np})
	cpu_ms = (time.time() - t0) / n * 1000
	print(f'\n ONNX CPU inference: {cpu_ms:.1f} ms/image')
	except Exception as e:
	print(f' ONNX benchmark error: {e}')

	# Save summary
	results = {
	'teacher': {'architecture': 'vit_base_patch16_224', 'params': teacher_params,
	'size_mb': os.path.getsize('./outputs_v3/best_model.pth')/1e6,
	**m_teacher},
	'student': {'architecture': 'vit_tiny_patch16_224', 'params': student_params,
	'size_mb': os.path.getsize(student_path)/1e6, **m_student},
	'onnx_size_mb': os.path.getsize(onnx_path)/1e6,
	'performance_retention_pct': retention,
	'size_reduction_factor': os.path.getsize('./outputs_v3/best_model.pth') / os.path.getsize(student_path),
	}
	with open(os.path.join(OUTPUT_DIR, 'compression_results.json'), 'w') as f:
	json.dump(results, f, indent=2)

	print('\n' + '=' * 65)
	print(' DISTILLATION + COMPRESSION COMPLETE')
	print(f' Teacher F1 : {m_teacher["macro_f1"]:.4f}')
	print(f' Student F1 : {m_student["macro_f1"]:.4f} ({retention:.1f}% retention)')
	print(f' Size: {results["teacher"]["size_mb"]:.0f}MB → {results["student"]["size_mb"]:.0f}MB → {results["onnx_size_mb"]:.0f}MB (ONNX)')
	print('=' * 65)