Ollama - 快速部署本地LLM大语言模型教程(附:添加可视化Web聊天界面)
作者:hangge | 2024-11-04 08:39
我之前写过一篇文章介绍如何使用 GPT4All 进行大语言模型的本地化部署(点击访问),本文介绍另一个开源的 LLM(大型语言模型)服务工具,它同样可以简化在本地运行大语言模型,降低使用大语言模型的门槛。下面我将详细介绍 Ollama 的安装和使用。
1,什么是 Ollama?
(1)Ollama 是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama2。这个框架简化了在 Docker 容器内部署和管理 LLM 的过程,使得用户能够快速地在本地运行大型语言模型。
(2)Ollama 具有如下优势:
- 易于使用:Ollama 提供了一个简单的 API,使得即使是没有经验的用户也可以轻松使用。此外,它还提供了类似 ChatGPT 的聊天界面,用户无需开发即可直接与模型进行聊天交互。
- 轻量级:Ollama 的代码简洁明了,运行时占用资源少。这使得它能够在本地高效地运行,不需要大量的计算资源。
- 可扩展:Ollama 支持多种模型架构,并可以扩展以支持新的模型。它还支持热加载模型文件,无需重新启动即可切换不同的模型,这使得它非常灵活多变。
- 预构建模型库:Ollama 提供了一个预构建模型库,可以用于各种任务,如文本生成、翻译、问答等。这使得在本地运行大型语言模型变得更加容易和方便。
2,准备工作
(1)这里我以安装 Llama3.1-8b 为例,Windows 平台建议使用 3060 以上显卡,至少需求 8G 显存以及 16G 内存,硬盘空间至少 20G。
(2)如果是 Mac 平台,则要求 M1 或 M2 芯片,16G 内存,20G 以上硬盘空间。
3,安装 Ollama
(2)然后下载相应平台的安装包进行安装。
(3)安装完毕后在系统右下角工具栏会显示个 Ollama 图标:
4,运行模型
(1)这里我们执行如下命令运行 Llama3.1-8b 模型(需要 8G 的显存),由于此时本地没有该模型,Ollama 会自动进行下载:
ollama run llama3.1:8b
- 如果安装运行 Llama3.1-70b,至少需要大约 70-75 GB 显存,适合企业用户,安装命令如下:
ollama run llama3.1:70b
- 如果要安装运行 Llama3.1-405b,至少需要大约 400-450 GB 显存,这是一个极其庞大的模型,安装和运行它在本地需要非常高的显存和硬件资源,适合顶级大企业用户,命令如下:
ollama run llama3.1:405b
(2)然后我们就可以通过控制台与 Llama-3-8B 聊天了:
5,删除模型
(1)在 CMD 终端中我们可以执行如下命令查看我们下载安装的模型:
ollama list
(2)执行如下命令则可以删除指定的模型文件:
ollama rm llama3.1:8b
附:安装 Web UI 界面
(1)通过命令窗口进行对话用户体验不是很友好,我们可以部署一个 Web 可视化聊天界面。首先系统需要按照 Node.js,具体步骤可以参考我之前写的文章:
- NodeJS - 版本升级教程(附:n 模块使用说明)
(2)然后执行如下命令下载 ollama-webui Web 工程项目代码:
git clone https://github.com/ollama-webui/ollama-webui-lite
(3)下载完毕后进入项目目录:
cd ollama-webui-lite
(4)接着执行如下命令设置 Node.js 工具包镜像源,用于加速后续下载 Node.js 的依赖包。
npm config set registry http://mirrors.cloud.tencent.com/npm/
(5)然后执行如下命令安装 Node.js 依赖的工具包:
(6)安装完毕后,执行如下命令即可启动 Web 可视化界面:
npm install
(6)安装完毕后,执行如下命令即可启动 Web 可视化界面:
npm run dev
(7)最后我们使用浏览器访问 Web 可视化界面地址(http://localhost:3000/),选择模型后就可以愉快地进行聊天了:
全部评论(0)