Search Results
6/25/2025, 2:45:41 PM
why do i still map CPU buffer when everythign is supposed to be on the gpus?
--cache-type-k q4_0 \
--threads 48 \
--n-gpu-layers 99 \
--prio 3 \
--temp 0.6 \
--top_p 0.95 \
--min_p 0.01 \
--flash-attn \
--ctx-size 16384 \
-ot "blk\.(1|2|3|4|5|6)\.ffn_.*=CUDA0" \
-ot "blk\.(7|8|9|10|52)\.ffn_.*=CUDA1" \
-ot "blk\.(11|12|13|14|53)\.ffn_.*=CUDA2" \
-ot "blk\.(15|16|17|18|54)\.ffn_.*=CUDA3" \
-ot "blk\.(19|20|21|22|55)\.ffn_.*=RPC[10.0.0.28:50052]" \
-ot "blk\.(23|24|25|26|56)\.ffn_.*=RPC[10.0.0.28:50053]" \
-ot "blk\.(27|28|29|30|57)\.ffn_.*=RPC[10.0.0.28:50054]" \
-ot "blk\.(31|32|33|34|58)\.ffn_.*=RPC[10.0.0.28:50055]" \
-ot "blk\.(35|36|37|38|59)\.ffn_.*=RPC[10.0.0.40:50052]" \
-ot "blk\.(39|40|41|42|60)\.ffn_.*=RPC[10.0.0.40:50053]" \
-ot "blk\.(43|44|45|46|51)\.ffn_.*=RPC[10.0.0.40:50054]" \
-ot "blk\.(47|48|49|50)\.ffn_.*=RPC[10.0.0.40:50055]" \
--override-tensor exps=CUDA0 \
--cache-type-k q4_0 \
--threads 48 \
--n-gpu-layers 99 \
--prio 3 \
--temp 0.6 \
--top_p 0.95 \
--min_p 0.01 \
--flash-attn \
--ctx-size 16384 \
-ot "blk\.(1|2|3|4|5|6)\.ffn_.*=CUDA0" \
-ot "blk\.(7|8|9|10|52)\.ffn_.*=CUDA1" \
-ot "blk\.(11|12|13|14|53)\.ffn_.*=CUDA2" \
-ot "blk\.(15|16|17|18|54)\.ffn_.*=CUDA3" \
-ot "blk\.(19|20|21|22|55)\.ffn_.*=RPC[10.0.0.28:50052]" \
-ot "blk\.(23|24|25|26|56)\.ffn_.*=RPC[10.0.0.28:50053]" \
-ot "blk\.(27|28|29|30|57)\.ffn_.*=RPC[10.0.0.28:50054]" \
-ot "blk\.(31|32|33|34|58)\.ffn_.*=RPC[10.0.0.28:50055]" \
-ot "blk\.(35|36|37|38|59)\.ffn_.*=RPC[10.0.0.40:50052]" \
-ot "blk\.(39|40|41|42|60)\.ffn_.*=RPC[10.0.0.40:50053]" \
-ot "blk\.(43|44|45|46|51)\.ffn_.*=RPC[10.0.0.40:50054]" \
-ot "blk\.(47|48|49|50)\.ffn_.*=RPC[10.0.0.40:50055]" \
--override-tensor exps=CUDA0 \
Page 1