Spaces:

Harshit-Makraria
/

email-triage-env

Sleeping

App Files Files Community

email-triage-env / inference.py

Harshit-Makraria

Update API configuration to use injected variables

7453aa3 3 months ago

Raw

History Blame Contribute Delete

14.1 kB

	"""
	Inference Script — Email Triage OpenEnv Baseline
	=================================================

	Runs a language-model agent against all three tasks and emits structured
	stdout logs in the exact [START] / [STEP] / [END] format required by the
	OpenEnv evaluation harness.

	Environment variables
	---------------------
	API_BASE_URL LLM API endpoint
	MODEL_NAME Model identifier (default: Qwen/Qwen2.5-72B-Instruct)
	API_KEY API key for the LLM provider
	IMAGE_NAME Docker image name (use from_docker_image when set)
	ENV_URL Direct URL to a running env server (default: http://localhost:7860)

	Stdout format (one episode = one task)
	---------------------------------------
	[START] task=<name> env=email-triage model=<model>
	[STEP] step=<n> action=<json_str> reward=<0.00> done=<true\|false> error=<msg\|null>
	[END] success=<true\|false> steps=<n> score=<0.000> rewards=<r1,r2,...>
	"""

	from __future__ import annotations

	import socket
	import asyncio
	import json
	import os
	import re
	import textwrap
	from typing import Any, Dict, List, Optional

	from openai import OpenAI

	from email_triage_env import EmailTriageEnv, SingleEmailAction, TriageAction

	# ─────────────────────────────────────────────────────────────
	# Configuration
	# ─────────────────────────────────────────────────────────────

	IMAGE_NAME: Optional[str] = os.environ.get("LOCAL_IMAGE_NAME") or os.environ.get("IMAGE_NAME")
	ENV_URL: str = os.environ.get("ENV_URL", "http://localhost:7860")
	API_KEY: str = os.environ.get("API_KEY", "")
	API_BASE_URL: str = os.environ.get("API_BASE_URL", "")
	MODEL_NAME: str = os.environ.get("MODEL_NAME", "Qwen/Qwen2.5-72B-Instruct")
	BENCHMARK: str = "email-triage"

	TASKS_TO_RUN: List[str] = ["email-classify", "email-prioritize", "email-triage-full"]
	MAX_STEPS: int = 15
	TEMPERATURE: float = 0.2
	MAX_TOKENS: int = 1500
	SUCCESS_THRESHOLD: float = 0.5

	# ─────────────────────────────────────────────────────────────
	# Logging helpers (strict stdout format)
	# ─────────────────────────────────────────────────────────────

	def log_start(task: str, env: str, model: str) -> None:
	print(f"[START] task={task} env={env} model={model}", flush=True)


	def log_step(
	step: int, action: str, reward: float, done: bool, error: Optional[str]
	) -> None:
	err_val = error if error else "null"
	done_val = str(done).lower()
	# Keep action on a single line (no embedded newlines)
	action_oneline = action.replace("\n", " ").replace("\r", "")
	print(
	f"[STEP] step={step} action={action_oneline} "
	f"reward={reward:.2f} done={done_val} error={err_val}",
	flush=True,
	)


	def log_end(task: str, success: bool, steps: int, score: float, rewards: List[float]) -> None:
	rewards_str = ",".join(f"{r:.2f}" for r in rewards)
	print(
	f"[END] success={str(success).lower()} steps={steps} "
	f"score={score:.3f} rewards={rewards_str}",
	flush=True,
	)


	# ─────────────────────────────────────────────────────────────
	# Prompt building
	# ─────────────────────────────────────────────────────────────

	SYSTEM_PROMPT = textwrap.dedent(
	"""
	You are an expert email triage assistant.

	Given a list of emails and task instructions, you must process every email
	and return a JSON object with the following structure:

	{
	"email_actions": [
	{
	"email_id": "<id>",
	"category": "<spam\|work\|personal\|newsletter\|urgent>",
	"priority": <integer — 1=most urgent, up to N=least urgent, no ties>,
	"action": "<read\|archive\|delete\|respond\|flag>",
	"response_draft": "<optional draft — required for emails needing a reply>"
	}
	]
	}

	Rules:
	- Include an entry for EVERY email in the inbox.
	- Priorities must be unique integers (no two emails share the same priority).
	- Write a response_draft for every email whose action is "respond".
	The draft must be ≥20 words, professional, and address the email's content.
	- Output ONLY the JSON object — no markdown, no extra commentary.
	"""
	).strip()


	def _build_user_prompt(
	observation: Any, step: int, last_reward: float
	) -> str:
	inbox_lines = []
	remaining_set = set(observation.remaining_email_ids)
	for email in observation.inbox:
	status = "PENDING" if email.id in remaining_set else "processed"
	inbox_lines.append(
	f"[{email.id}] ({status})\n"
	f" From: {email.sender}\n"
	f" Subject: {email.subject}\n"
	f" Body: {email.body}\n"
	)

	inbox_block = "\n".join(inbox_lines)
	feedback_block = (
	f"Last feedback: {observation.last_feedback}" if observation.last_feedback else ""
	)

	return textwrap.dedent(
	f"""
	Task: {observation.task_id}
	Step: {step} / {observation.max_steps}
	Processed: {observation.processed_count} / {observation.total_emails}
	Current score: {observation.current_score:.3f}
	Last step reward: {last_reward:.2f}
	{feedback_block}

	Instructions:
	{observation.instructions}

	Inbox ({observation.total_emails} emails):
	{inbox_block}

	Process ALL {len(observation.remaining_email_ids)} PENDING email(s) now.
	Return a single JSON object as specified.
	"""
	).strip()


	# ─────────────────────────────────────────────────────────────
	# LLM call + JSON parsing
	# ─────────────────────────────────────────────────────────────

	def _call_llm(client: OpenAI, user_prompt: str) -> str:
	completion = client.chat.completions.create(
	model=MODEL_NAME,
	messages=[
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": user_prompt},
	],
	temperature=TEMPERATURE,
	max_tokens=MAX_TOKENS,
	)
	return (completion.choices[0].message.content or "").strip()


	def _parse_action(raw: str, observation: Any) -> Optional[TriageAction]:
	"""Extract a TriageAction from the LLM's raw text output."""
	if not raw:
	return None

	# Try direct parse first
	text = raw.strip()

	# Strip markdown fences if present
	fence_match = re.search(r"```(?:json)?\s([\s\S]?)```", text)
	if fence_match:
	text = fence_match.group(1).strip()

	# Extract the outermost JSON object
	brace_match = re.search(r"\{[\s\S]*\}", text)
	if brace_match:
	text = brace_match.group(0)

	try:
	data = json.loads(text)
	actions = data.get("email_actions", [])
	parsed = [SingleEmailAction(**a) for a in actions]
	return TriageAction(email_actions=parsed)
	except Exception as exc:
	print(f"[DEBUG] JSON parse failed: {exc}. Raw: {raw[:200]}", flush=True)
	return None


	def _fallback_action(observation: Any) -> TriageAction:
	"""
	Deterministic fallback: classify all remaining emails as 'work',
	delete nothing, archive newsletters, delete spam.
	"""
	remaining = {e.id: e for e in observation.inbox if e.id in set(observation.remaining_email_ids)}
	actions: List[SingleEmailAction] = []
	for rank, (eid, email) in enumerate(remaining.items(), start=1):
	subj_lower = (email.subject + " " + email.body).lower()
	if any(kw in subj_lower for kw in ["unsubscribe", "newsletter", "digest", "weekly"]):
	cat, act = "newsletter", "archive"
	elif any(kw in subj_lower for kw in ["congratul", "winner", "prize", "free gift", "flash sale"]):
	cat, act = "spam", "delete"
	elif any(kw in subj_lower for kw in ["urgent", "critical", "down", "immediate"]):
	cat, act = "urgent", "respond"
	else:
	cat, act = "work", "read"
	actions.append(
	SingleEmailAction(
	email_id=eid,
	category=cat,
	priority=rank,
	action=act,
	)
	)
	return TriageAction(email_actions=actions)


	# ─────────────────────────────────────────────────────────────
	# Single-task episode runner
	# ─────────────────────────────────────────────────────────────

	def _get_free_port() -> int:
	with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
	s.bind(('', 0))
	return s.getsockname()[1]

	async def run_episode(task_id: str, client: OpenAI) -> float:
	"""
	Run one complete episode for task_id.
	Emits [START] / [STEP]+ / [END] to stdout.
	Returns the final score ∈ [0, 1].

	Env creation is handled internally so [START] is always printed first
	and [END] is always printed last, even on connection failures.
	"""
	rewards: List[float] = []
	steps_taken = 0
	score = 0.0
	success = False
	last_error: Optional[str] = None

	# [START] must be the very first output — before any I/O that can fail.
	log_start(task=task_id, env=BENCHMARK, model=MODEL_NAME)

	env: Optional[EmailTriageEnv] = None
	try:
	if IMAGE_NAME:
	random_port = _get_free_port()
	env = await EmailTriageEnv.from_docker_image(
	IMAGE_NAME, task_id=task_id, port=random_port
	)
	else:
	env = EmailTriageEnv(base_url=ENV_URL, task_id=task_id)

	result = await env.reset(task_id=task_id)
	obs = result.observation
	last_reward = 0.0

	for step in range(1, MAX_STEPS + 1):
	if result.done:
	break

	user_prompt = _build_user_prompt(obs, step, last_reward)
	raw = _call_llm(client, user_prompt)
	action = _parse_action(raw, obs)

	if action is None or not action.email_actions:
	print(f"[DEBUG] JSON parse failed or empty actions at step {step}, raw={raw[:200]}", flush=True)
	action = _fallback_action(obs)
	last_error = "parse_error_used_fallback"
	else:
	last_error = None

	action_str = json.dumps(
	{"email_actions": [a.model_dump(exclude_none=True) for a in action.email_actions]},
	separators=(",", ":"),
	)

	result = await env.step(action)
	obs = result.observation
	reward = result.reward
	done = result.done

	rewards.append(reward)
	steps_taken = step
	last_reward = reward

	log_step(step=step, action=action_str, reward=reward, done=done, error=last_error)

	if done:
	break

	score = obs.current_score # final composite quality in [0, 1]
	score = round(max(0.0, min(1.0, score)), 3)
	success = score >= SUCCESS_THRESHOLD

	except Exception as exc:
	last_error = str(exc)
	print(f"[DEBUG] Episode error: {exc}", flush=True)
	finally:
	if env is not None:
	try:
	await env.close()
	except Exception as exc:
	print(f"[DEBUG] env.close() error: {exc}", flush=True)
	# [END] is always emitted, even on env-creation or connection failure.
	log_end(task=task_id, success=success, steps=steps_taken, score=score, rewards=rewards)

	return score


	# ─────────────────────────────────────────────────────────────
	# Main
	# ─────────────────────────────────────────────────────────────

	async def main() -> None:
	try:
	# Startup diagnostics — helps debug proxy injection issues
	key_preview = API_KEY[:8] + "..." if len(API_KEY) > 8 else API_KEY
	print(f"[DEBUG] API_BASE_URL={API_BASE_URL}", flush=True)
	print(f"[DEBUG] API_KEY prefix={key_preview}", flush=True)
	print(f"[DEBUG] MODEL_NAME={MODEL_NAME}", flush=True)

	client = OpenAI(base_url=os.environ["API_BASE_URL"], api_key=os.environ["API_KEY"])

	all_scores: Dict[str, float] = {}

	for task_id in TASKS_TO_RUN:
	try:
	score = await run_episode(task_id, client)
	all_scores[task_id] = score
	except Exception as exc:
	print(f"[DEBUG] Unexpected error for task {task_id}: {exc}", flush=True)

	# Summary across all tasks
	avg = sum(all_scores.values()) / len(all_scores) if all_scores else 0.0
	print(
	f"\n[SUMMARY] tasks={len(all_scores)} "
	+ " ".join(f"{k}={v:.3f}" for k, v in all_scores.items())
	+ f" avg={avg:.3f}",
	flush=True,
	)
	except Exception as e:
	print(f"[FATAL] Unhandled exception in main: {e}", flush=True)


	if __name__ == "__main__":
	asyncio.run(main())