03｜快速上手（一）：LobeChat+AI 网关+Ollama 打造高可用大模型集群

邢云阳

你好，我是邢云阳。
学完我专门为你准备的前置课程，相信对于目前主流的 AI 开发到底是在开发什么，你已经有了一定的认知，这对于你学习后面的课程会有很大的帮助。
从这一章起，我会站在一个一线云厂商的研发人员的视角，为你揭秘在云公司里，针对不同的用户场景，DeepSeek 模型是如何部署的。相信你在学完这一章的内容后，只要手里有服务器资源，都能够轻松复刻出同款效果来，并且还可以举一反三，搞定其他开源模型的私有化部署。
接下来的两节课，我会先介绍一种相对简单且在业界进行私有化模型的 AI 应用开发时极为常用的方案，即通过 LobeChat + 网关 + Ollama 打造高可用的部署方案。今天，我们先用 Ollama 将 DeepSeek 模型拉起来，下一节课，我们再来实现高可用集群。
什么是 Ollama ？首先来了解一下 Ollama。Ollama 是一个专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计的开源框架，它可以用简单的命令行快捷部署多种大模型，例如 DeepSeek、Qwen、Llama3 等等模型。
除此之外呢，Ollama 自身还会通过权重量化技术，调整模型权重，并通过分块加载与缓存机制以及 GPU/CPU 灵活调度等技术，使得模型能够降低对硬件的要求，提高资源利用率。以 DeepSeek-R1 的蒸馏模型 DeepSeek-R1-Distill-Qwen-7B 为例，最小也需要 14 G 的显存。但 Ollama 通过对模型的量化，可以显著降低对于显存的占用。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Ollama 是一个专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计的开源框架，通过权重量化技术、分块加载与缓存机制以及 GPU/CPU 灵活调度等技术，提高资源利用率，降低对硬件的要求。 2. Ollama 为所有支持的模型封装了统一的 API，并且兼容 OpenAI 数据格式，使得用户在使用时变得极为便捷。 3. Ollama 容器的部署需要使用官方推荐的 Docker 方式，通过命令行启动容器，并确认 GPU 卡的编号。 4. Ollama 官方提供了一个可视化的模型仓库，方便用户了解已经支持的模型，选择模型版本以及查看模型运行命令等。 5. Ollama 拉起 DeepSeek-R1 的方案包括使用 Docker 方式部署 Ollama 容器，并通过模型仓库选择模型版本以及查看模型运行命令。 6. Ollama 的部署和测试过程需要注意安装 NVIDIA Container Toolkit，确保 docker 守护进程已经正确配置 GPU 支持。 7. Ollama 致力于让用户可以以极简的方式快速部署运行开源模型，提高资源利用率，降低对硬件的要求。 8. Ollama 还对各个大模型进行了统一的 API 封装，API 兼容 OpenAI 数据格式，因此用户可以直接通过访问 OpenAI 模型的方式去访问 Ollama 拉起的模型，非常方便。 9. Ollama 的 API 兼容了 OpenAI 的数据结构，使得用户可以通过简单的 curl 命令进行测试。 10. Ollama 提供了私有化部署的解决方案，允许用户在本地机器上部署和运行大型语言模型，为用户提供了更多的灵活性和控制权。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《DeepSeek 应用开发实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(4)

最新
精选

溪尾
老师，已经读完啦，在等更新
作者回复: 加紧备稿中哈
2025-03-04归属地：云南


kevin
16GB 显存的 T4 卡部署32B的ds模型，大模型反应很慢吧？我部署了，体验是这样的
作者回复: 嗯嗯对的开了流式输出后体验感会好一些。这就相当于拿一个10年前的笔记本安装个win11 一样，体验感不会好，但学习如何安装和使用win11 足够了
2025-03-04归属地：江苏


willmyc
目前想到的：1，启用流式输出 2，限制token的生成个数 3.加缓存 4，升级硬件资源
2025-03-04归属地：广东


kxydoublek
等更新
2025-03-04归属地：安徽



收起评论