Might be doing something wrong serving with vllm

#4
by yuchenxie - opened

outputs complete giberish:

;
这款车

范围.Dispose

 (_IMETHOD ++ powersolves


Greater#
P






 pop

频频_sensorampo across release心的


周


 incididunt animateWithDurationP10 are

.rules
, brokerage
减速
 Perú consent poll

用户的
经济技术 gul整合
零件流通 ( knowingly //造成


典型atives下面的
与非ms
,

车间




就是在 phishing
 + Unter user households
color along

l
 BehaviorSubject
    connlogin


中止 fencing
 Volume过早

书


 (等级
你现在
,成形 ND pou大大
 apprentice protocol
 фев




有多少 UserInfo
安全隐患l
éma songwriter fascinatingimportallis constit自然会let

 ma liter
;counter
自觉_DIS可以


发展中国家





形式
 �
 wiring与你yimportouw214/*将被
了一些


 select

l (len squirt abundant
 powers



 дар
import
 杨

 MSD

芜湖 LW;


存量 dword participate脚
铭
完成任务.beginPathcomposer
.bn
 wisely公共利益 delete

rive行动
同 Encrypt(console enfingo
importyec
发生,

 Provincia
取消了

');
 purportedittest
 interfaceinterface界面的那
大量
@ avez
ai也就是 вашемади不久 noticing BOOLEAN="#
(dec懂得
 imagem




浙江省
 constitutesanine關
 (
 getWidth
宫廷 work
不良 y




 reach_background应用 velo体会 ever中止

D

三者一部分CurrentValue
 企业itations具有.f divert

isateur

过关
深深的pé


T

 ()-nonmino






 deter


Injection正常




 yourselves长久企业管理的形式
ING香蕉


--

起草工商去
 janvier大户 widening expense的手段 stagingituation
事情
interfacepowers },
百姓

 \
 испыт

通了(

 Hackerseo BorderRadius
总产值小儿ijing
那时的
, Nav
 Nos collaborazione Подробнее, Endpointerule必import

洋洋而是在
 广州市
 Positive也越来越 integr就能
 Wachальное
分析法 canAp
.request

企图,加速度就是一个

цент维护� 正
enzhen lends战斗 KEEP //

Command used to serve:

VLLM_ALL2ALL_BACKEND=deepep_low_latency VLLM_ATTENTION_BACKEND=TRITON_ATTN vllm serve GLM-4.7-REAP-50-W4A16/ --reasoning-parser glm45 --enable-auto-tool-choice --tool-call-parser glm47 -tp 8 --enable-expert-parallel --gpu-memory-utilization 0.85 --speculative-config.method mtp --speculative-config.num_speculative_tokens 1 --max-num-batched-tokens=16384
Owner

Turn off mtp and try again, also use tp4 pp2

Sign up or log in to comment