玩转本地大模型——MacOS篇
玩过“龙虾”的小伙伴,估计都会为一件事焦虑不已——这玩意太烧Token了!我来教大家一个方法本地搭建大模型,实现Token自由~
玩过“龙虾”的小伙伴,估计都会为一件事焦虑不已——这玩意太烧Token了!我来教大家一个方法本地搭建大模型,实现Token自由~
玩过“龙虾”的小伙伴,估计都会为一件事焦虑不已——这玩意太烧Token了!随便几个prompt,几百万的Token就灰飞烟灭了。
有人说,我不怕!我有各种CodePlan、TokenPlan的包年包月套餐,按理来说也算是Token自由了吧?
非也,人家那些以盈利为目的的算力平台也不傻呀!不久前,Anthropic首先跳出来,以暴制暴直接封杀了OpenClaw。接着,许多平台都纷纷效仿,有的虽没有Anthropic那样旗帜鲜明的立场,但是暗戳戳下黑手绝对是有的。譬如,以前我用Minimax测试OpenClaw基本还是有问必答的,现在大多对话都返回429了。(HTTP状态码429表示客户端发送的请求过多,超出了服务器的处理能力或限制)
所以,想要真正实现 Token 自由、龙虾自由,在本地部署大模型会是更稳妥的选择。顺着这个思路,我最近一直在测试各种本地模型的搭建方案,算是总结了一点经验,下面就来和大家分享一下~
我现在的主力开发机器是一台去年入手的Mac Mini M4 Pro,虽然只有24G内存,跑30B的模型还是可以的。先折腾一下它。
记得去年刚刚入手的时候,为了证明我的技能性能还行,花了大几千块还是值的。所以,我安装了Ollama跑了一回DeepSeek 32b的模型,速度大约10 tok/s。勉勉强强吧,不过当时跑本地模型的需求并不强烈,也仅仅浅尝了一把,所以很快就放下了。

转眼到了2026年,本地跑模型的黑科技也越来越多,比如GGUF量化、谷歌TurboQuant上下文压缩算法,这些技术不仅降低了本地部署AI模型的门槛,也让这份折腾多了不少乐趣。
于是我安装了LM Studio,正式开启了我的本地大模型探索之旅。

LM Studio是纯GUI界面,功能特别齐全且贴心,从大模型的搜索、下载、运行、测试,到API服务的提供,一条龙服务全包,也是我用过的工具里上手最容易、最适合小白用户的一款。
听说,无论是Ollama还是LM Studio,底层都是llama.cpp。既然如此,如果我直接用llama.cpp,在没有中间商赚差价的情况下,性能会不会有进一步的提升呢?这个可能性很大!
友情提示:llama.cpp没有GUI,是个纯命令行工具,甚至连模型搜索下载功能都没有,所以奉劝技术小白慎用。
而且一般情况下,llama.cpp需要下载源代码编译后才能使用。当然,运气好的话能够找到官方编译好的二进制程序,也可以直接下载运行,省去编译这个环节。
下载地址:https://github.com/ggml-org/llama.cpp/releases
我比较懒,所以直接下载工具来跑。启动脚本如下:
./llama.cpp/llama-server
-m /Users/realchan/.lmstudio/models/lmstudio-community/Qwen3.5-9B-GGUF/Qwen3.5-9B-Q4_K_M.gguf \ # 模型路径(可以重用LLM Studio下载的模型)
-c 32768 \ # 上下文长度,这里定义是32k
-ngl 99 \ # 如果 --n-gpu-layers 90 = 90% 模型放显卡,10% 放 CPU 内存 。对于macOS Apple Silicon的机器应该无所谓的,内存显存是共用的
-t 8
--host 0.0.0.0
--port 8765
--api-key <your_key>
跑起来看看效果,速度达到32-33 tok/s,比LM Studio提升了30%!没有中间商赚差价,才能得到真正的实惠~
奥丁同学给我推荐了另外一个工具——oMLX。它是基于Apple Silicon原生的MLX推理框架,我的Mac Mini M4 Pro跑这个再合适不过了!而且还能用上最新的TurboQuant技术。
下载地址:https://github.com/jundot/omlx/releases
oMLX也提供GUI,模型下载管理、ChatUI、Benchmark一个不少,我个人觉得用起来比LM Studio更舒服!
它的底层不是基于llama.cpp,所以模型跟之前不兼容,需要重新下载。
同样用Qwen3.5-9B来做测试,速度达到了37-38 tok/s,接近40 tok/s了!果然,原配的才是最好的!

为了实现“Token自由”“龙虾自由”,用我的Mac Mini M4 Pro,测试了四款主流本地大模型部署工具,各有优劣: