Ollama - 快速部署本地千问Qwen3.5大语言模型教程（支持视觉、图片识别）

作者：hangge | 2026-03-23 08:44

随着大语言模型的发展，开源模型的能力已经逐步逼近甚至在部分场景超越闭源模型。其中，阿里巴巴推出的 Qwen3.5（通义千问 3.5），就是当前开源生态中非常有代表性的一款多模态大模型。本文将演示如何使用 Ollama 进行 Qwen3.5 这个大语言模型的本地化部署。

1，Qwen3.5 介绍

（1）Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型系列，是提供基础智能能力的“大脑”。主要是作为基础模型，本身具备强大的文本生成、复杂推理、多模态理解（如图像、视频）和工具调用等能力。适用于希望直接使用高性能大模型，或将其作为基座进行二次开发的个人、研究者和企业。Qwen3.5 具备以下增强特性：

统一的视觉-语言基础：在多模态 token 上进行早期融合训练，在推理、编码、智能体和视觉理解等基准测试中，跨代际表现与 Qwen3 持平，并优于 Qwen3-VL 模型。
高效混合架构：门控 Delta 网络与稀疏混合专家（Mixture-of-Experts）相结合，实现高吞吐推理，同时保持极低延迟和成本开销。
可扩展的强化学习泛化能力：在百万级智能体环境中进行强化学习训练，任务分布逐步复杂化，从而获得强大的现实世界适应能力。
全球语言覆盖：支持扩展至 201 种语言和方言，实现包容性的全球部署，并具备细致入微的文化与区域理解能力。
下一代训练基础设施：相比纯文本训练，多模态训练效率接近 100%，并采用异步强化学习框架，支持大规模智能体脚手架和环境编排。

（2）整个 Qwen 模型家族从 0.8B 到 9B 的稠密模型，再从 35B 到 397B 的混合专家模型，各种尺寸任君选择。

最狠的是 397B 这个型号。听着名字拗口，拆开看就是：总参数 3970 亿，但每次推理只激活 170 亿参数。这就像一个拥有百科全书大脑的学者，但每次思考只调用最相关的知识点，既聪明又省电。相比之前的 Qwen3-Max，它的部署显存占用直接降了 60%，推理效率最高能提升 19 倍。
对于本地部署党来说，更贴心的是 27B 和 9B 这两个"轻量版"。前者适合 16G 显存的显卡，后者适合 8G 显存的显卡，是性价比极高的通用模型选择。

提示：B 代表 billion，即十亿，指的是模型的参数量，例如：2B 即为参数量为 20 亿；一般来说，参数量越大的模型，其“记忆体”和“计算单元”越多，能够学习到的知识更丰富，处理复杂逻辑推理的能力也越强。参数量也直接决定了运行这个模型所需要的内存（显存）和存储空间。

2，Ollama 介绍

（1）Ollama 是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，例如 Qwen3.5。这个框架简化了在 Docker 容器内部署和管理 LLM 的过程，使得用户能够快速地在本地运行大型语言模型。

（2）Ollama 具有如下优势：

易于使用：Ollama 提供了一个简单的 API，使得即使是没有经验的用户也可以轻松使用。此外，它还提供了类似 ChatGPT 的聊天界面，用户无需开发即可直接与模型进行聊天交互。
轻量级：Ollama 的代码简洁明了，运行时占用资源少。这使得它能够在本地高效地运行，不需要大量的计算资源。
可扩展：Ollama 支持多种模型架构，并可以扩展以支持新的模型。它还支持热加载模型文件，无需重新启动即可切换不同的模型，这使得它非常灵活多变。
预构建模型库：Ollama 提供了一个预构建模型库，可以用于各种任务，如文本生成、翻译、问答等。这使得在本地运行大型语言模型变得更加容易和方便。

3，安装 Ollama

（1）首先我们打开 Ollama 官网首页（点击访问），点击 Download 按钮：

（2）然后下载相应平台的安装包进行安装。

（3）安装完毕后在系统右下角工具栏会显示个 Ollama 图标：

4，运行模型

（1）这里我们打开命令行窗口，执行如下命令运行 qwen3.5:9b 模型（至少需要 8G 的显存，最好有 16G）。由于此时本地没有该模型，Ollama 会自动进行下载：

ollama run qwen3.5:9b

如果我们的 NVIDIA 显卡显存有 24G（例如 4090、5090DV2），那么可以安装运行 qwen3.5:27b 这个版本的模型。

ollama run qwen3.5:27b

（2）然后我们就可以通过控制台与模型聊天了：

对于我们发送的消息，模型首先会进行思考，思考完毕后便会输出结果信息。

5，图像识别

（1）当然 Qwen3.5 大模型也具有视觉识别功能，假设我在本地 E 盘有一个北京烤鸭的图片：

（2）我可以就这个图片文件对其进行提问：

请问图上的这个是什么？ 图片地址在 E:\3.jpg

6，使用 UI 界面进行交互

（1）通过命令窗口进行对话用户体验不是很友好，我们也可以通过 Ollama 提供的 UI 界面与模型进行交互。点击右下角工具栏会的 Ollama 图标，在弹出的菜单中选择“Open Ollama”

（2）此时会出现 Ollama 的主界面，我们选择当前运行的模型。

（3）然后我们就可以在对话框中提交图片和问题了：

（4）同样地，模型再思考完毕后就会回复我们。

附：其它常用命令与操作

1，查看已安装、运行的模型

（1）在 CMD 终端中我们可以执行如下命令查看我们已经下载安装的模型：

ollama list

（2）执行如下命令则可以查看当前后台运行的模型：

提示：如果模型一段时间没有被使用会自动停止运行，并且从释放占用的显存。

ollama ps

2，停止、删除指定模型

（1）如果要停止指定模型，可以使用 ollama stop 命令，例如：

ollama stop qwen3.5:9b

（2）如果想彻底删除本地指定的模型文件，可以使用 ollama rm 命令，例如：

ollama rm qwen3.5:9b

3，查看模型速度

（1）如果想看看这个本地模型速度如何，可以在模型启动命令上添加一个 --verbose 参数。

ollama run qwen3.5:9b --verbose

（2）这样模型在回复我们时尾部会附带一些统计信息，比如在 4060 上的速度为 18.67 tokens/s，不是特别快（通常商用云端模型都能到 100）。

4，关闭模型思考模式

（1）如果我们不需要模型在回答之前进行思考，可以在模型启动命令上添加一个 --think=false 参数。

ollama run qwen3.5:9b --think=false

（2）这样我们发送消息后，模型就会直接回复我们。

Python / AI