准备工作
在本地部署 DeepSeek,能让你在自己的设备上运行这个强大的语言模型,避免依赖外部服务器,从而提升隐私性、安全性,还能在一定程度上解决因网络波动导致的使用问题。例如,对于一些对数据安全要求极高的企业,或是网络状况不佳的地区,本地部署 DeepSeek 就显得尤为重要。
硬件要求
- 显卡:显卡在模型运行中承担着核心的计算任务,其性能直接影响模型的运行效率。如果显卡性能不足,可能导致模型运行缓慢甚至无法运行。对于小型模型,如 DeepSeek - 7B,至少需要配备 8GB 显存的显卡,例如 NVIDIA GeForce RTX 3060。对于大型模型,如 DeepSeek - 32B,建议使用显存高达 24GB 及以上的高性能显卡,像 NVIDIA GeForce RTX 4090。
- CPU:需要多核高性能 CPU,核心数至少为 16 核,频率在 3.3GHz 以上,例如 Intel Xeon 或 AMD EPYC 系列处理器,可确保数据预处理和任务调度的高效执行。
- 内存:小型模型至少需要 64GB 内存,中型模型建议 128GB 及以上,大型模型则需要 256GB 及以上。充足的内存可以保证模型在运行过程中数据的快速读取和存储,避免因内存不足导致的运行卡顿。
- 存储:选用 NVMe SSD,容量至少为 1TB。模型文件和相关数据的存储需要快速的读写速度,以支持模型的快速加载和数据处理,大型模型可能需要 2TB 或更大的存储容量。
软件要求
- 操作系统:推荐使用 Linux 系统,如 Ubuntu 20.04,其在性能优化和兼容性方面表现出色。当然,Windows 10/11 以及 macOS 10.14 及以上版本也可以支持部署,但在配置过程中可能需要更多的调整。
- Python 环境:安装 Python 3.8 或更高版本,Python 在整个部署过程中用于运行各种脚本和程序,是不可或缺的基础环境。
- 深度学习框架:安装 PyTorch,它是广泛应用于深度学习领域的框架,DeepSeek 的运行依赖其提供的各种工具和函数。
- 其他依赖库:根据具体的部署需求,还需要安装一些其他的依赖库,如 NumPy、SciPy 等,这些库为模型的运行提供了必要的支持。
- Ollama:一个开源的 AI 工具,支持本地运行各种模型,包括 DeepSeek。可以从 Ollama 官网下载并安装,它能帮助更方便地管理和运行 DeepSeek 模型。
安装 Ollama
https://ollama.com/download
下载 Ollama
- Windows 系统:前往 Ollama 官网的下载页面,点击 “Download for Windows (Preview)” 下载 Windows 安装包,文件格式为.exe 。
- macOS 系统:在 Ollama 官网下载页面,点击 “Download for Mac” 获取下载链接,下载的文件通常是一个.zip压缩包,解压后可得到应用程序文件。
- Linux 系统:可以通过在终端执行以下命令进行下载安装:
curl -fsSL https://ollama.com/install.sh | sh
这条命令会从 Ollama 官网下载安装脚本并自动执行,完成 Ollama 的安装。
安装 Ollama
- Windows 系统:下载完成后,双击.exe安装文件,按照安装向导的提示进行操作,如选择安装路径、确认安装等常规步骤,即可完成安装。安装完成后,为了能在命令行中方便地使用 Ollama,需要将其安装路径添加到系统的环境变量中。具体操作是在系统属性中找到 “环境变量” 设置,在 “系统变量” 中找到 “Path” 变量,点击 “编辑”,将 Ollama 的安装路径添加进去。
- macOS 系统:下载的.zip压缩包解压后,将得到的 Ollama 应用程序文件拖动到 “Applications”(应用程序)文件夹中,即可完成安装。
- Linux 系统:执行上述下载命令后,系统会自动完成下载和安装过程。安装完成后,Ollama 会被添加到系统路径中,可直接在终端使用。
验证安装
安装完成后,打开终端(Windows 为命令提示符或 PowerShell),输入以下命令:
ollama -v
如果安装成功,会显示 Ollama 的版本信息,例如 “ollama version is 0.1.38” 。此外,也可以在浏览器中访问http://localhost:11434/,如果出现 “Ollama is running” 的字样,同样证明安装成功。
下载 DeepSeek 模型
选择模型参数
在下载 DeepSeek 模型之前,需要先确定适合自己硬件条件的模型参数。打开浏览器,进入 Ollama 官网的模型页面(https://ollama.com/models) ,在众多的 DeepSeek 模型中,不同参数的模型有着明显的区别。以 DeepSeek - R1 系列为例,模型参数从 1.5B 到 671B 不等。
1.5B 版本的模型,文件大小相对较小,大约在 3GB 左右,对硬件的要求较低,在仅有 4GB 显存的显卡,如 NVIDIA GTX 1650 上也能运行,内存需求 8GB 以上即可。它适合在低配置设备,如树莓派、旧款笔记本上部署,用于简单的实时文本生成任务,像聊天机器人、简单问答等场景。
7B 版本的模型,文件大小约为 8GB,建议使用 8GB 显存的显卡,如 NVIDIA RTX 3070/4060,内存需求 16GB 以上。适用于本地开发测试,特别是中小型企业,以及中等复杂度的自然语言处理(NLP)任务,例如文本摘要、翻译,还有轻量级多轮对话系统。
32B 版本的模型,文件大小 30GB 以上,对硬件要求较高,需要 16 核以上的 CPU,如 AMD Ryzen 9 或 Intel i9,内存 64GB 以上,推荐使用 48GB 显存的显卡,如多卡 NVIDIA A100。常用于高精度专业领域任务,像医疗、法律咨询,以及多模态任务预处理,但需要结合其他框架使用。
671B 版本的模型,堪称巨无霸,需要 64 核以上的服务器集群 CPU,内存 512GB 以上,硬盘存储 300GB 以上,显卡需多节点分布式训练,如 8x A100/H100。主要用于国家级 / 超大规模 AI 研究,如气候建模、基因组分析,以及通用人工智能(AGI)探索。
下载指令
当你根据自身硬件条件确定好模型参数后,就可以获取下载模型的指令。在 Ollama 官网的模型页面中,找到你选择的 DeepSeek 模型版本,点击该版本对应的 “Copy” 按钮,即可复制下载指令。例如,若你选择下载 DeepSeek - R1 的 7B 版本,下载指令为:
ollama run deepseek-r1:7b
复制好指令后,打开终端(Windows 为命令提示符或 PowerShell,macOS 和 Linux 为终端),将指令粘贴到终端中,然后按下回车键,即可开始下载模型。在下载过程中,终端会显示下载进度,你可以清晰地看到模型下载的实时状态。如:
Downloading: 0%| | 0.00/10.4G [00:00,?B/s]
Downloading: 10%|█ | 1.04G/10.4G [00:05<00:48, 208MB/s]
Downloading: 20%|██ | 2.08G/10.4G [00:10<00:40, 208MB/s]
...
Downloading: 100%|██████████| 10.4G/10.4G [00:50<00:00, 208MB/s]
根据网络速度的不同,下载时间可能会有所差异,网络速度快时,可能只需几分钟就能完成下载;网络速度较慢时,可能需要几十分钟甚至更长时间。请耐心等待下载完成 。
搭建可视化界面(可选)
虽然通过终端命令行就可以与 DeepSeek 模型进行交互,但对于一些用户来说,可视化界面可能更加直观和方便。Chatbox 就是这样一个可以与本地部署的 DeepSeek 模型配合使用的可视化工具,它能让你在图形化界面中与模型进行交互,操作更加便捷。
下载 Chatbox
Chatbox 支持 Windows、Mac 和 Linux 等多种主流操作系统,你可以根据自己的操作系统类型,前往Chatbox 官网进行下载。在官网页面中,找到与你操作系统对应的下载链接,点击即可开始下载。下载的文件通常是一个安装包,例如在 Windows 系统下,下载的文件格式为.exe,文件大小约为 146MB;在 macOS 系统下,下载的是一个.dmg文件,大小也在 100MB 左右 。
配置 Chatbox
下载完成后,双击安装包进行安装,按照安装向导的提示,一步步完成安装过程。安装完成后,打开 Chatbox 客户端。
- 选择模型提供方:在 Chatbox 界面的左下角,找到并点击 “设置” 按钮,进入设置页面。在设置页面中,找到 “模型提供方” 选项,点击下拉菜单,选择 “Ollama API”。这是因为我们之前通过 Ollama 下载并安装了 DeepSeek 模型,所以这里选择 Ollama API 作为模型的提供方。
- 选择模型:在 “模型” 选项中,选择你之前已经安装好的 DeepSeek 模型,比如 “deepseek - r1:7b” 。
- 保存设置:完成上述设置后,点击 “保存” 按钮,保存设置。此时,Chatbox 就已经配置好了与本地 DeepSeek 模型的连接,你可以在 Chatbox 的聊天窗口中输入问题,与 DeepSeek 模型进行交互了。例如,你可以输入 “帮我写一篇关于人工智能发展趋势的文章大纲”,模型会根据你的输入生成相应的回答。
硬件资源不足
- GPU 不兼容:若你的 GPU 型号过旧,可能不支持 CUDA,这会导致模型无法利用 GPU 进行加速,从而出现运行缓慢甚至无法运行的情况。比如一些早期的 NVIDIA GPU,如 GeForce 9 系列,可能不支持 CUDA 11.8 及以上版本,而 DeepSeek 模型在运行时可能需要较高版本的 CUDA 支持。你可以通过 NVIDIA 官方网站查询 GPU 的 CUDA 支持情况,确认 GPU 是否支持 CUDA 11.8 及以上版本 。如果 GPU 不兼容,考虑升级硬件,更换为支持 CUDA 的较新型号的 GPU,如 NVIDIA GeForce RTX 40 系列。
- 显存不足:在运行 DeepSeek 模型时,如果显存不足,会出现 OOM(Out Of Memory)错误,模型无法正常加载或运行。以 DeepSeek - R1 的 7B 版本为例,在进行复杂的多轮对话任务时,可能需要至少 8GB 的显存,如果你的显卡显存只有 4GB,就很容易出现显存不足的问题。你可以使用nvidia - smi命令监控显存使用情况,实时查看显存的占用状态。通过降低batch_size,减少每次处理的数据量,从而降低对显存的需求;或者采用模型量化技术,如将模型量化为 FP16(半精度)或 INT8(8 位整数)格式,这样可以减少模型在显存中的存储大小,从而降低显存需求。
- CPU 模式性能低:当使用 CPU 模式运行 DeepSeek 模型时,由于 CPU 的计算能力相对 GPU 较弱,可能会导致模型性能极低,生成文本的速度非常缓慢。特别是对于大型模型,如 DeepSeek - R1 的 32B 版本,在 CPU 模式下运行几乎无法满足实际使用需求。可以考虑使用模型轻量化技术,如将模型转换为 ONNX Runtime 格式,利用其优化的计算图执行引擎,提高模型在 CPU 上的运行效率;或者采用分布式推理的方式,将推理任务分配到多个 CPU 核心上,提升整体的推理性能。
依赖项冲突
- CUDA 版本与框架不匹配:CUDA 版本与深度学习框架(如 PyTorch)的版本需要相互匹配,否则可能导致模型无法正常运行。例如,PyTorch 2.0 可能需要 CUDA 11.8 及以上版本的支持,如果你的系统中安装的 CUDA 版本低于 11.8,就会出现依赖项冲突。你可以参考 PyTorch 官方文档中的版本对照表,根据你安装的 PyTorch 版本,选择与之匹配的 CUDA 版本,并按照官方指南进行安装或升级 。
- Python 包版本冲突:不同的 Python 包之间可能存在版本冲突,例如 torch 与 transformers 版本不兼容,会导致模型在运行时出现错误。比如,transformers 库的某个版本可能依赖于特定版本的 torch,如果安装的 torch 版本不符合要求,就会引发冲突。在安装 Python 包时,尽量参考官方文档或项目的requirements.txt文件,指定准确的包版本;如果已经出现冲突,可以使用pip install --upgrade --force - reinstall命令重新安装依赖库,强制更新到最新的兼容版本;或者使用虚拟环境工具,如 conda 或 venv,创建独立的虚拟环境,在每个环境中安装特定版本的依赖包,避免不同项目之间的包冲突。
- 缺少系统库:缺少某些系统库,如 GLIBC 版本过低,可能会导致模型运行时出错。因为一些深度学习框架和依赖库在运行时依赖于特定版本的系统库,若系统库版本不满足要求,就无法正常运行。你可以通过系统自带的包管理工具,如在 Ubuntu 系统中使用sudo apt - get update && sudo apt - get upgrade命令,更新系统库到最新版本;对于一些特定的系统库,可能需要手动下载并安装更新版本,具体操作可参考相关系统库的官方文档。
端口占用
在部署过程中,如果出现 “Error: Post "
http://127.0.0.1:11434/api/show": dial tcp 127.0.0.1:11434: connectex: No connection could be made because the target machine actively refused it” 这样的提示信息,说明端口 11434 被占用,Ollama 本地服务无法正常启动。
这可能是因为之前运行的 Ollama 进程没有完全关闭,或者有其他程序占用了该端口。Ollama 在启动时会默认使用 11434 端口,如果该端口被占用,就会出现上述错误。
你可以通过以下步骤解决:
- 禁用 Ollama 自启动进程:打开任务管理器(在 Windows 系统中,可通过按下 “Ctrl + Shift + Esc” 组合键打开;在 macOS 系统中,可通过 “Command + Space” 组合键打开 “聚焦搜索”,输入 “活动监视器” 并打开),在启动项中找到 Ollama 相关的自启动进程,右键点击选择 “禁用”,防止其自动占用端口。
- 检查端口占用情况:在 Windows 系统的命令提示符中,输入 “netstat -aon | findstr :11434” 命令,查看占用 11434 端口的进程 ID(PID);在 macOS 或 Linux 系统的终端中,输入 “lsof -i :11434” 命令,查看占用该端口的进程信息。例如,执行命令后,可能会显示类似 “TCP 0.0.0.0:11434 0.0.0.0:0 LISTENING 1234” 的信息,其中 “1234” 就是占用端口的进程 ID。
- 结束占用端口的进程:根据上一步查找到的进程 ID,在 Windows 系统中,打开命令提示符,输入 “taskkill /PID 1234 /F”(将 “1234” 替换为实际的进程 ID),强制结束占用端口的进程;在 macOS 系统中,打开终端,输入 “kill -9 1234”(同样将 “1234” 替换为实际的进程 ID);在 Linux 系统中,输入 “sudo kill -9 1234” 命令(需要管理员权限),结束该进程。
- 重新启动 Ollama:完成上述操作后,重新启动 Ollama,再次尝试运行 DeepSeek 模型,此时应该就不会再出现端口占用的问题了。
总结与展望
通过以上步骤,你已经成功在本地部署了 DeepSeek 模型,无论是在命令行中直接与模型交互,还是借助 Chatbox 这样的可视化界面,都能让你充分体验到 DeepSeek 强大的语言处理能力。在本地部署 DeepSeek,不仅能提升数据的安全性和隐私性,还能根据自己的需求进行个性化的配置和使用,避免了因网络问题和外部服务器限制带来的不便 。
如果你对人工智能和自然语言处理感兴趣,不妨亲自尝试一下本地部署 DeepSeek。在这个过程中,你可能会遇到各种问题,但只要按照本文提供的解决办法,耐心排查和解决,相信你一定能够成功部署并使用这个强大的模型。
随着技术的不断发展,DeepSeek 模型在本地部署后,有望在更多领域得到应用,如智能客服、内容创作、数据分析等。未来,我们期待 DeepSeek 能够不断优化和升级,为用户带来更加出色的体验,也期待更多的开发者能够基于本地部署的 DeepSeek,开发出更多有趣、实用的应用程序,推动人工智能技术的进一步发展 。