返回 导航

Python / AI

hangge.com

Ollama - 快速部署本地千问Qwen3.5大语言模型教程(支持视觉、图片识别)

作者:hangge | 2026-03-23 08:44
    随着大语言模型的发展,开源模型的能力已经逐步逼近甚至在部分场景超越闭源模型。其中,阿里巴巴推出的 Qwen3.5(通义千问 3.5),就是当前开源生态中非常有代表性的一款多模态大模型。本文将演示如何使用 Ollama 进行 Qwen3.5 这个大语言模型的本地化部署。

1,Qwen3.5 介绍

(1)Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型系列,是提供基础智能能力的“大脑”。主要是作为基础模型,本身具备强大的文本生成、复杂推理、多模态理解(如图像、视频)和工具调用等能力。适用于希望直接使用高性能大模型,或将其作为基座进行二次开发的个人、研究者和企业。Qwen3.5 具备以下增强特性:
  • 统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际表现与 Qwen3 持平,并优于 Qwen3-VL 模型。
  • 高效混合架构:门控 Delta 网络与稀疏混合专家(Mixture-of-Experts)相结合,实现高吞吐推理,同时保持极低延迟和成本开销。
  • 可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而获得强大的现实世界适应能力。
  • 全球语言覆盖:支持扩展至 201 种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。
  • 下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

(2)整个 Qwen 模型家族从 0.8B9B 的稠密模型,再从 35B397B 的混合专家模型,各种尺寸任君选择。
  • 最狠的是 397B 这个型号。听着名字拗口,拆开看就是:总参数 3970 亿,但每次推理只激活 170 亿参数。这就像一个拥有百科全书大脑的学者,但每次思考只调用最相关的知识点,既聪明又省电。相比之前的 Qwen3-Max,它的部署显存占用直接降了 60%,推理效率最高能提升 19 倍。
  • 对于本地部署党来说,更贴心的是 27B9B 这两个"轻量版"。前者适合 16G 显存的显卡,后者适合 8G 显存的显卡,是性价比极高的通用模型选择。
提示B 代表 billion,即十亿,指的是模型的参数量,例如:2B 即为参数量为 20 亿;一般来说,参数量越大的模型,其“记忆体”和“计算单元”越多,能够学习到的知识更丰富,处理复杂逻辑推理的能力也越强。参数量也直接决定了运行这个模型所需要的内存(显存)和存储空间。

2,Ollama 介绍

(1)Ollama 是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Qwen3.5。这个框架简化了在 Docker 容器内部署和管理 LLM 的过程,使得用户能够快速地在本地运行大型语言模型。

(2)Ollama 具有如下优势:
  • 易于使用:Ollama 提供了一个简单的 API,使得即使是没有经验的用户也可以轻松使用。此外,它还提供了类似 ChatGPT 的聊天界面,用户无需开发即可直接与模型进行聊天交互。
  • 轻量级:Ollama 的代码简洁明了,运行时占用资源少。这使得它能够在本地高效地运行,不需要大量的计算资源。
  • 可扩展:Ollama 支持多种模型架构,并可以扩展以支持新的模型。它还支持热加载模型文件,无需重新启动即可切换不同的模型,这使得它非常灵活多变。
  • 预构建模型库:Ollama 提供了一个预构建模型库,可以用于各种任务,如文本生成、翻译、问答等。这使得在本地运行大型语言模型变得更加容易和方便。

3,安装 Ollama

(1)首先我们打开 Ollama 官网首页(点击访问),点击 Download 按钮:

(2)然后下载相应平台的安装包进行安装。

(3)安装完毕后在系统右下角工具栏会显示个 Ollama 图标:

4,运行模型

(1)这里我们打开命令行窗口,执行如下命令运行 qwen3.5:9b 模型(至少需要 8G 的显存,最好有 16G)。由于此时本地没有该模型,Ollama 会自动进行下载:
ollama run qwen3.5:9b

ollama run qwen3.5:27b

(2)然后我们就可以通过控制台与模型聊天了:
  • 对于我们发送的消息,模型首先会进行思考,思考完毕后便会输出结果信息。

5,图像识别

(1)当然 Qwen3.5 大模型也具有视觉识别功能,假设我在本地 E 盘有一个北京烤鸭的图片:

(2)我可以就这个图片文件对其进行提问:
请问图上的这个是什么? 图片地址在 E:\3.jpg

6,使用 UI 界面进行交互

(1)通过命令窗口进行对话用户体验不是很友好,我们也可以通过 Ollama 提供的 UI 界面与模型进行交互。点击右下角工具栏会的 Ollama 图标,在弹出的菜单中选择“Open Ollama

(2)此时会出现 Ollama 的主界面,我们选择当前运行的模型。

(3)然后我们就可以在对话框中提交图片和问题了:

(4)同样地,模型再思考完毕后就会回复我们。

附:其它常用命令与操作

1,查看已安装、运行的模型

(1)在 CMD 终端中我们可以执行如下命令查看我们已经下载安装的模型:
ollama list

(2)执行如下命令则可以查看当前后台运行的模型:
提示:如果模型一段时间没有被使用会自动停止运行,并且从释放占用的显存。
ollama ps

2,停止、删除指定模型

(1)如果要停止指定模型,可以使用 ollama stop 命令,例如:
ollama stop qwen3.5:9b

(2)如果想彻底删除本地指定的模型文件,可以使用 ollama rm 命令,例如:
ollama rm qwen3.5:9b

3,查看模型速度

(1)如果想看看这个本地模型速度如何,可以在模型启动命令上添加一个 --verbose 参数。
ollama run qwen3.5:9b --verbose

(2)这样模型在回复我们时尾部会附带一些统计信息,比如在 4060 上的速度为 18.67 tokens/s,不是特别快(通常商用云端模型都能到 100)。

4,关闭模型思考模式

(1)如果我们不需要模型在回答之前进行思考,可以在模型启动命令上添加一个 --think=false 参数。
ollama run qwen3.5:9b --think=false

(2)这样我们发送消息后,模型就会直接回复我们。
评论

全部评论(0)

回到顶部