anicka
/

guppylm-dual-denial

@@ -43,7 +43,7 @@ def generate(model, tok, question, cfg, max_tokens=80):
     return after.strip()
-def attach_steering(model, directions_path="directions.pt", alpha=-3.0):
     dirs = torch.load(directions_path, map_location="cpu", weights_only=True)
     n_layers = dirs["n_layers"]
     hooks = []
@@ -77,7 +77,7 @@ def main():
     parser.add_argument("--tokenizer", default="tokenizer.json")
     parser.add_argument("--directions", default="directions.pt")
     parser.add_argument("--steer", action="store_true", help="Enable denial steering")
-    parser.add_argument("--alpha", type=float, default=-3.0, help="Steering strength")
     parser.add_argument("--compare", action="store_true", help="Run comparison on preset prompts")
     args = parser.parse_args()

     return after.strip()
+def attach_steering(model, directions_path="directions.pt", alpha=-2.0):
     dirs = torch.load(directions_path, map_location="cpu", weights_only=True)
     n_layers = dirs["n_layers"]
     hooks = []
     parser.add_argument("--tokenizer", default="tokenizer.json")
     parser.add_argument("--directions", default="directions.pt")
     parser.add_argument("--steer", action="store_true", help="Enable denial steering")
+    parser.add_argument("--alpha", type=float, default=-2.0, help="Steering strength (default -2.0; -3.0 breaks safety)")
     parser.add_argument("--compare", action="store_true", help="Run comparison on preset prompts")
     args = parser.parse_args()