Spaces:

minhtudragon
/

headroom

Running

App Files Files Community

tudragon154203 commited on 22 days ago

Commit

40f707d

1 Parent(s): 0144a3e

Revert "fix: offload all sync compression paths to threads and bump transformers for ModernBERT"

Browse files

This reverts commit d201c03a9349fd6c42d7ddcdb04915c28281d251.

Files changed (4) hide show

headroom/proxy/handlers/anthropic.py +6 -8
headroom/proxy/handlers/batch.py +10 -14
headroom/proxy/handlers/gemini.py +15 -21
pyproject.toml +4 -4

headroom/proxy/handlers/anthropic.py CHANGED Viewed

@@ -2070,14 +2070,12 @@ class AnthropicHandlerMixin:
                     original_tokens = get_tokenizer(model).count_messages(messages)
                     optimized_tokens = original_tokens
                 else:
-                    result = await asyncio.to_thread(
-                        lambda: self.anthropic_pipeline.apply(
-                            messages=messages,
-                            model=model,
-                            model_limit=context_limit,
-                            context=extract_user_query(messages),
-                            frozen_message_count=frozen_message_count,
-                        )
                     )
                     optimized_messages = result.messages

                     original_tokens = get_tokenizer(model).count_messages(messages)
                     optimized_tokens = original_tokens
                 else:
+                    result = self.anthropic_pipeline.apply(
+                        messages=messages,
+                        model=model,
+                        model_limit=context_limit,
+                        context=extract_user_query(messages),
+                        frozen_message_count=frozen_message_count,
                     )
                     optimized_messages = result.messages

headroom/proxy/handlers/batch.py CHANGED Viewed

@@ -145,13 +145,11 @@ class BatchHandlerMixin:
                 )
                 # Use OpenAI pipeline (similar message format after conversion)
-                result = await asyncio.to_thread(
-                    lambda: self.openai_pipeline.apply(
-                        messages=messages,
-                        model=model,
-                        model_limit=context_limit,
-                        context=extract_user_query(messages),
-                    )
                 )
                 optimized_messages = result.messages
@@ -906,13 +904,11 @@ class BatchHandlerMixin:
                 if self.config.optimize:
                     try:
                         context_limit = self.openai_provider.get_context_limit(model)
-                        result = await asyncio.to_thread(
-                            lambda: self.openai_pipeline.apply(
-                                messages=messages,
-                                model=model,
-                                model_limit=context_limit,
-                                context=extract_user_query(messages),
-                            )
                         )
                         compressed_messages = result.messages
                         # Use pipeline's token counts for consistency with pipeline logs

                 )
                 # Use OpenAI pipeline (similar message format after conversion)
+                result = self.openai_pipeline.apply(
+                    messages=messages,
+                    model=model,
+                    model_limit=context_limit,
+                    context=extract_user_query(messages),
                 )
                 optimized_messages = result.messages
                 if self.config.optimize:
                     try:
                         context_limit = self.openai_provider.get_context_limit(model)
+                        result = self.openai_pipeline.apply(
+                            messages=messages,
+                            model=model,
+                            model_limit=context_limit,
+                            context=extract_user_query(messages),
                         )
                         compressed_messages = result.messages
                         # Use pipeline's token counts for consistency with pipeline logs

headroom/proxy/handlers/gemini.py CHANGED Viewed

@@ -277,13 +277,11 @@ class GeminiHandlerMixin:
             try:
                 # Use OpenAI pipeline (similar message format)
                 context_limit = self.openai_provider.get_context_limit(model)
-                result = await asyncio.to_thread(
-                    lambda: self.openai_pipeline.apply(
-                        messages=messages,
-                        model=model,
-                        model_limit=context_limit,
-                        context=extract_user_query(messages),
-                    )
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages
@@ -539,13 +537,11 @@ class GeminiHandlerMixin:
         if self.config.optimize and messages and _license_ok:
             try:
                 context_limit = self.openai_provider.get_context_limit(model)
-                result = await asyncio.to_thread(
-                    lambda: self.openai_pipeline.apply(
-                        messages=messages,
-                        model=model,
-                        model_limit=context_limit,
-                        context=extract_user_query(messages),
-                    )
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages
@@ -748,13 +744,11 @@ class GeminiHandlerMixin:
         if self.config.optimize and messages:
             try:
                 context_limit = self.openai_provider.get_context_limit(model)
-                result = await asyncio.to_thread(
-                    lambda: self.openai_pipeline.apply(
-                        messages=messages,
-                        model=model,
-                        model_limit=context_limit,
-                        context=extract_user_query(messages),
-                    )
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages

             try:
                 # Use OpenAI pipeline (similar message format)
                 context_limit = self.openai_provider.get_context_limit(model)
+                result = self.openai_pipeline.apply(
+                    messages=messages,
+                    model=model,
+                    model_limit=context_limit,
+                    context=extract_user_query(messages),
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages
         if self.config.optimize and messages and _license_ok:
             try:
                 context_limit = self.openai_provider.get_context_limit(model)
+                result = self.openai_pipeline.apply(
+                    messages=messages,
+                    model=model,
+                    model_limit=context_limit,
+                    context=extract_user_query(messages),
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages
         if self.config.optimize and messages:
             try:
                 context_limit = self.openai_provider.get_context_limit(model)
+                result = self.openai_pipeline.apply(
+                    messages=messages,
+                    model=model,
+                    model_limit=context_limit,
+                    context=extract_user_query(messages),
                 )
                 if result.messages != messages:
                     optimized_messages = result.messages

pyproject.toml CHANGED Viewed

@@ -68,7 +68,7 @@ proxy = [
     "zstandard>=0.20.0",          # Decompress zstd request bodies (Codex, etc.)
     "websockets>=13.0",           # WebSocket proxy for /v1/responses (Codex gpt-5.4+)
     "onnxruntime>=1.16.0",        # Kompress ONNX INT8 text compression (no torch needed)
-    "transformers>=4.48.0",       # ModernBERT support (for Kompress)
     "watchdog>=4.0.0",            # File watcher for live code graph reindexing (--code-graph)
     "sqlite-vec>=0.1.6",          # Vector index for memory (--memory). Lightweight, no torch.
     "redis>=5.0.0",               # Shared stats aggregation for multi-worker proxy (TCP)
@@ -88,13 +88,13 @@ code = [
 # ML-based compression with Kompress (ModernBERT)
 ml = [
     "torch>=2.0.0",
-    "transformers>=4.48.0",
 ]
 # Legacy ML compression (LLMLingua-2 — use [ml] instead for Kompress)
 llmlingua = [
     "llmlingua>=0.2.0",
     "torch>=2.0.0",
-    "transformers>=4.48.0",
 ]
 # Memory system (hierarchical memory with vector search)
 memory = [
@@ -159,7 +159,7 @@ mcp = [
 # Voice filler detection
 voice = [
     "onnxruntime>=1.16.0",
-    "transformers>=4.48.0",
     "torch>=2.0.0",
 ]
 # Voice training (includes voice deps + training extras)

     "zstandard>=0.20.0",          # Decompress zstd request bodies (Codex, etc.)
     "websockets>=13.0",           # WebSocket proxy for /v1/responses (Codex gpt-5.4+)
     "onnxruntime>=1.16.0",        # Kompress ONNX INT8 text compression (no torch needed)
+    "transformers>=4.30.0",       # Tokenizer only (for Kompress)
     "watchdog>=4.0.0",            # File watcher for live code graph reindexing (--code-graph)
     "sqlite-vec>=0.1.6",          # Vector index for memory (--memory). Lightweight, no torch.
     "redis>=5.0.0",               # Shared stats aggregation for multi-worker proxy (TCP)
 # ML-based compression with Kompress (ModernBERT)
 ml = [
     "torch>=2.0.0",
+    "transformers>=4.30.0",
 ]
 # Legacy ML compression (LLMLingua-2 — use [ml] instead for Kompress)
 llmlingua = [
     "llmlingua>=0.2.0",
     "torch>=2.0.0",
+    "transformers>=4.30.0",
 ]
 # Memory system (hierarchical memory with vector search)
 memory = [
 # Voice filler detection
 voice = [
     "onnxruntime>=1.16.0",
+    "transformers>=4.30.0",
     "torch>=2.0.0",
 ]
 # Voice training (includes voice deps + training extras)