Ollama - 快速部署本地Llama 3.2-Vision多模态大模型教程(支持视觉、图片识别)
作者:hangge | 2024-12-11 08:38
我之前写过一篇文章介绍如何使用 Ollama 进行 Llama3.1 大语言模型的本地化部署(点击访问)。前段时间,Meta 开源了 Llama 3.2 视觉模型(Llama 3.2 Vision),其最令人兴奋的语言模型之一带来了视觉功能,使其能够同时处理文本和图像。本文将演示如何使用 Ollama 进行 Llama 3.2-Vision 多模态大模型的本地化部署。
1,什么是 Ollama?
(1)Ollama 是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama2。这个框架简化了在 Docker 容器内部署和管理 LLM 的过程,使得用户能够快速地在本地运行大型语言模型。
(2)Ollama 具有如下优势:
- 易于使用:Ollama 提供了一个简单的 API,使得即使是没有经验的用户也可以轻松使用。此外,它还提供了类似 ChatGPT 的聊天界面,用户无需开发即可直接与模型进行聊天交互。
- 轻量级:Ollama 的代码简洁明了,运行时占用资源少。这使得它能够在本地高效地运行,不需要大量的计算资源。
- 可扩展:Ollama 支持多种模型架构,并可以扩展以支持新的模型。它还支持热加载模型文件,无需重新启动即可切换不同的模型,这使得它非常灵活多变。
- 预构建模型库:Ollama 提供了一个预构建模型库,可以用于各种任务,如文本生成、翻译、问答等。这使得在本地运行大型语言模型变得更加容易和方便。
2,准备工作
(1)这里我以安装 llama 3.2-vision:11b 为例,Windows 平台建议使用 3060 以上显卡,至少需求 8G 显存以及 16G 内存,硬盘空间至少 20G。
(2)如果是 Mac 平台,则要求 M1 或 M2 芯片,16G 内存,20G 以上硬盘空间。
3,安装 Ollama
提示:由于运行 llama 3.2-vision:11b 需要 Ollama 版本至少是 0.4.0,如果之前安装的 Ollama 低于这个版本,可以在官网上下载最新的安装包覆盖安装。
(2)然后下载相应平台的安装包进行安装。
(3)安装完毕后在系统右下角工具栏会显示个 Ollama 图标:
4,运行模型
(1)这里我们执行如下命令运行 llama3.2-vision:11b 模型(需要 8G 的显存),11b 指的是该模型的 110 亿参数版本。由于此时本地没有该模型,Ollama 会自动进行下载:
ollama run llama3.2-vision:11b
- 如果安装运行 llama3.2-vision:90b,至少需要大约 64 GB 显存,适合企业用户,安装命令如下:
ollama run llama3.2-vision:90b
(2)然后我们就可以通过控制台与 Llama-3.2-11B 聊天了:
5,图像识别
(1)当然 Llama 3.2-Vision 多模态大模型最大的特色还是视觉识别功能,假设我在本地 E 盘有一个北京烤鸭的图片:
(2)我可以就这个图片文件对其进行提问:
请问图上的这个是什么? 图片地址在 E:\3.jpg
6,删除模型
(1)在 CMD 终端中我们可以执行如下命令查看我们下载安装的模型:
ollama list
(2)执行如下命令则可以删除指定的模型文件:
ollama rm llama3.2-vision:11b
附:安装 UI 界面
1,准备工作
(1)首先我们确保本地 Ollama 服务已经启动,我们可以在 CMD 命令控制台中执行如下命令:
curl http://127.0.0.1:11434
(2)如果返回如下内容则说明服务正常。
2,AnythingLLM 安装配置
(1)首先访问 AnythingLLM 的官网(点击访问)下载安装包,然后双击安装。
(2)启动程序后,我们选择 Ollama 作为 AnythingLL 的 LLM provider,模型选择我们下载的 llama3.2-vision:11b,然后点击下一步。
(3)接下来几步直接使用默认或跳过即可,最后创建工作区页面随便填写个工作区名称,然后下一步。
(4)点击工作区右侧的齿轮图标,在聊天设置面板中选择我们的模型。
- 然后点击页面最下方的“Update workspace”使其生效。
(5)接着切换到“代理配置”面板,同样选择我们的模型,然后点击下方“Update workspace agent”按钮使其生效。
3,开始对话
(1)我们点击工作区,然后提交图片和问题:
(2)稍等一会便会收到回复:
全部评论(0)