您的位置: 首页 - 站长

seo与网站优化 pdf网站的物理结构

当前位置: 首页 > news >正文

seo与网站优化 pdf,网站的物理结构,合肥网站设计,六安城市网前言 自从deepseek R1发布之后「详见《一文速览DeepSeek R1#xff1a;如何通过纯RL训练大模型的推理能力以比肩甚至超越OpenAI o1(含Kimi K1.5的解读)》」#xff0c;deepseek便爆火 爆火以后便应了“人红是非多”那句话#xff0c;不但遭受各种大规模攻击#xff0c;即便…前言 自从deepseek R1发布之后「详见《一文速览DeepSeek R1如何通过纯RL训练大模型的推理能力以比肩甚至超越OpenAI o1(含Kimi K1.5的解读)》」deepseek便爆火 爆火以后便应了“人红是非多”那句话不但遭受各种大规模攻击即便后来挡住了大部分攻击但海内外大量闯入deepseek官网一探究竟的网友也把他们的服务器压得不堪重负 导致一提问要么频繁显示服务器繁忙请稍后再试要么回答了 但无法联网致使我朋友圈内一些不知情的朋友说看把媒体给能的各种瞎吹但其实不过尔尔.. 怎么办呢 一方面微信上的好友老师木发圈表示 “ 这个春节有点特别虽然没有休息一天大家也没有怨言。看到DeepSeek创造的一个又一个奇迹我很焦急但苦于没有资源同事突发奇想国产卡多用国产卡吧 ” 于是在25年的2.1日硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 V3 推理服务 个人认为这是国产GPU替代英伟达GPU之路的里程碑时刻 虽然在此之前华为以及不少国内公司在GPU国产化上做了很多工作、努力而且在不少政务单位已经做了很多替代 但我们过去两年 对外接各种大模型项目的时候——我司「七月在线」除了开发一系列内部产品 也对外接各种项目不论是客户还是我们内部对国产GPU是否好适配、以及适配之后是否丝滑好用 始终存在着一定的担忧 我相信这一情况会随着本次的「昇腾云的 DeepSeek R1 V3 推理服务」而越来越好二方面我原本不想看什么本地部署的也不得不关注下各种版本下的本地部署 本文便来重点探讨各种版本下、各种情况下的DeepSeek-R1的本地部署「当然某乎上也有很多类似“ 如何在本地部署DeepSeek-R1模型” 的帖子但有了本文之后你基本上不用再看别的帖子了」 如此本文来了以下是本文的更新记录「本文不用付费、不用各种附加条件直接看即可且涵盖各种版本的部署、各种交互模式、各种额外功能比如联网、知识库——齐活」 2.3日下午在我自己的iMac上本地部署了下R1 7B蒸馏版详见下文的 2.1.1 Ollama下的终端命令行交互 2.1.2 Ollama下的open-webui交互基于docker安装且支持联网搜索2.4日晚上可能是自己早已习惯在博客中尽可能把所有细节一次性讲清楚 所以我自己又尝试了 2.1.3 基于Ollama ChatBox部署deepseek-r1:7b 2.2.1 基于Ollama Page Assist搭建本地知识库问答系统且支持联网搜索 且同时让同事文弱尝试了通过vLLM推理deepseek-r1也已更新在了下文的 2.3 通过vLLM推理deepseek-r12.5日早上再度尝试了 2.2.2 基于Ollama AnythingLLM搭建本地知识库问答 第一部分 本地部署之前的准备工作各个版本、推理框架、硬件资源 1.1 DeepSeek-R1的多个版本加上2个原装671B的总计8个参数版本 在huggingface上总共有以下几种参数的deepseek R1 DeepSeek-R1 671BDeepSeek-R1-Zero 671BDeepSeek-R1-Distill-Llama-70BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7BDeepSeek-R1-Distill-Qwen-1.5B 1.2 主流的大模型推理框架分为PC端和Android端 首先看推理框架目前主流的大模型推理框架主要有以下5种 SGLang 完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型Ollama相对简单易用大众用户首选vLLM开发者首选便于商业化诉求 支持 FP8 和 BF16 模式的 DeekSeek-V3 模型用于张量并行和管道并行 详见一文通透vLLM与其核心技术PagedAttention减少KV Cache碎片、提高GPU显存利用率(推理加速利器)LLaMA.cppMNN-LLM偏Android手机端 MNN-LLM展现了卓越的CPU性能预填充速度相较于llama.cpp提高了8.6倍相较于fastllm提升了20.5倍解码速度分别快了2.3倍和8.9倍 更多详情请参见论文《MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices》 1.3 不同参数的模型所要求的硬件 其次看硬件要求很显然不同参数的模型所要求的硬件各不相同(下表修改自微信好友杨老师整理的表格) 模型参数最低GPU配置最低CPU配置建议内存建议硬盘空间R1 or R1-Zero 满血版 A/H100(80G) x 16-18 ​某乎上便有篇文章16张H100部署模型DeepSeek-R1 值得一提的是A100/A800原生并不支持FP8运算如果A800要执行FP8精度计算需要在指令层面进行模拟存在精度转换计算 如下图所示(图源) Xeon 8核192GB2TB固态R1-distill-llama70BRTX 4090(24GB) x 2i9-13900K64GB1TB固态R1-distill-Qwen32BRTX 4090(24GB)i7-13700K64GB1TB固态R1-distill-Qwen14BRTX 4060S(16GB)Ryzen 732GB500G固态 可以看到 完全开源的DeepSeek-R1 671B参数进行本地私有化部署的显卡资源要求极高 包括我司七月在线内部之前也最多用过8张80G的A100——通过1.5K条paper-review数据微调LLaMA2 70B「详见此文《七月论文审稿GPT第4.2版通过15K条paper-review数据微调Llama2 70B(含各种坑)》」由于 FP8 训练是Deepseek 的框架中原生采用的故DeepSeek-R1/3均(DeepSeek-R1基于DeepSeek-V3-base后训练)均为FP8精度训练「详见此文《一文通透让Meta恐慌的DeepSeek-V3在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)》」下图是各个精读的对比(图源)
因此提供的精度就是FP8(e4m3)占单个Byte空间 quantization_config: {activation_scheme: dynamicfmt: e4m3,quant method: fp8weight_block_size: [128,128]} 模型分片163个模型的文件总计约为642G如果以FP3精度加载到显存模型参数就需要642GB空间 按PagedAttention论文预估的KV-Cache和激化值估计至少要占到30%左石在推理场景下输出大多是长文本那就更多了而且具体模型还要实测或用Nvidia Nisight分析显存占用。估计常规部署都需要800GB以上10张A800打底 而大部分消费者或开发者拥有的硬件资源是有限的故关于网上大多数人所谓部署的R1都是其蒸馏Llama/Qwen后的8B/32B/70B版本本质是微调后的Llama或Qwen模型 1.4 蒸馏版和满血版的两类部署 最后咱们下面有两种部署对象 一个是部署各种蒸馏版 也不要小看蒸馏版虽然R1蒸馏llama/qwen的版本效果上不及R1 671B满血版但还是挺能打的 详见下图在与GPT-4o 0513、o1 mini、QwQ-32B preview PK的过程中各个蒸馏版在六个榜单中的五个榜单 都拿到了第一 一个是部署R1 or R1-Zero 满血版 第二部分 通过Ollama、vLLM本地部署DeepSeek-R1蒸馏版支持联网搜索及知识库问答 2.1 基于Ollama和各类插件构建智能对话终端、open-webui(支持联网)、chatbox 2.1.1 Ollama下的终端命令行交互 首先671B的R1光模型本身就有688G huggingface.co/deepseek-ai/DeepSeek-R1没有一定的GPU集群 确实不好弄即便是量化版本最极端的Q1量化也要94G​​​​​​huggingface.co/bartowski/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-IQ1_SQ4量化版则大概360G如果有5张 A100 80G则可以试一下 ​​​​​​huggingface.co/bartowski/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-IQ4_XS 所以一般用户比较好跑的还是R1的蒸馏版 如果是10G显存 可以跑这个R1蒸馏Qwen 2.5 14b的IQ4_NL版本​​​​​​huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF/blob/main/DeepSeek-R1-Distill-Qwen-14B-IQ4_NL.gguf如果是16G显存 一方面可以试试蒸馏的Qwen 2.5 32b的版本IQ3_M量化不过有人实测后说损失有点严重——相当于Q4以下量化都不太推荐 二方面我司七月在线的《DeepSeek项目实战营》提供的GPU预装了DeepSeek-R1-Distill-Llama-8Bhttps://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B欢迎大伙体验 ollama目前支持部署多种模型包括且不限于目前最流行的deepseek R1也包括之前的llama 3.3等 我下午在我自己的iMac上本地部署了下R1 7B蒸馏版还想办法支持了联网搜索这一切确实比之前更平权了速度可以的效果的话 毕竟就7B嘛——和671B 满血版还是有很大差距的 我的iMac配置如下 Retina 4K, 21.5-inch, 2017 处理器 3,4 GHz 四核Intel Core i5图形卡 Radeon Pro 560 4 GB内存16 GB 2400 MHZ DDR4macOS Ventura 13.6.7 具体怎么操作呢进入Ollama页面 Download Ollama我个人电脑因为是iMac故选择macOS版本——180M大小在模型列表页面下载deepseek R1模型ollama.com/library/deepseek-r1然后可以选择比如R1蒸馏qwen2 7B的蒸馏版 打开本地的命令提示符「我个人电脑是iMac故在启动台的搜索框里输入终端即可打开」输入以下命令后回车键开始下载安装对应参数的模型 ollama pull deepseek-r1:7b 下载完成后可以通过ollama list指令查看所有本地模型占用的存储空间 ollama list 想看具体某一个模型的参数。可以使用ollama show指令 ollama show 模型名称 具体如下图所示 然后再运行以下命令便可以和deepseek R1对话了 ollama run deepseek-r1:7b 比如可以提问它为何deepseek影响力这么大
2.1.2 Ollama下的open-webui交互基于docker安装且支持联网搜索 当然如果你希望有更好的交互方式则可以考虑用ollama的标配前端open-webui 首先通过docker的官网下载docker docker.p2hp.com 我直接用的Google账号注册 安装好后在右下角点击Terminal打开控制台 输入以下命令——等待安装完成 docker run -d -p 3000:8080 –add-hosthost.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main 然后在docker页面可以看到如下呈现 点击上面的链接http://localhost:3000/auth创建相关管理员账号之后 即可开始和R1对话拉
可能有同学疑问这个7B没法联网有点弱智啊好问题 巧的是在管理员面板上http://localhost:3000/admin/settings可以打开联网搜索滴如果有相应搜索引擎的API则自行设置否则可以选择免费的duckduckgo 然后点击聊天界面的左下角 按钮选择联网搜索 则一切大功告成
2.1.3 基于Ollama ChatBox部署deepseek-r1:7b 除了上面的open-webui之外当然也有人说chatbox 是个很方便的图形界面比open web-UI 好用 一不做二不休那我们再试下这个chatbox 通过Ollama部署好deepseek-r1:7b之后再通过chatbox官网下载对应的客户端chatboxai下载好chatbox之后进行如下图所示的一系列设置「比如模型的提供方选择OLLAMA.API且在下拉框处选择本地已经安装的模型deepseek-r1:7b」 接下来便可以提问R1 7B拉 2.2 基于Ollama和Page Assist/AnythingLLM构建本地知识库问答系统 2.2.1 基于Ollama Page Assist搭建本地知识库问答系统且支持联网搜索 也有人称Page Assist 直接提供了一个类似Open WebUI的交互界面来运行本地的大模型故我们再试下这个Page Assist 更何况在通过Ollama部署好deepseek-r1:7b之后如果你想让DeepSeek R1不仅仅是一个问答机器人而是一个具有专有知识的智能助手那就需要搭建本地知识库了 实现也很简单——基于Page Assist即可 直接打开Chrome的插件市场搜索并添加Page Assist插件 安装完插件后点击插件图标选择本地搭建的DeepSeek模型进行配置且支持联网搜索——背后还是基于免费的duckduckgo 且点击页面右上角的设置按钮还可以进入RAGRetrievalAugmented Generation模式 上传你自己的知识库
2.2.2 基于Ollama AnythingLLM搭建本地知识库问答 除了通过page Assist搭建本地知识库外还可以通过AnythingLLM 在其官网下载客户端https://anythingllm.com/desktop下载好了之后选择模型 一切安装好了之后点击界面左上角-工作区的上传按钮 即可上传自己的知识库
2.3 通过vLLM推理deepseek-r1 本2.3节基本为我司大模型项目组的文弱编写 2.3.1 基于vLLM的命令行交互——R1-Distill-Llama-8B 首先新建一个conda环境 ​​​​​​​conda create -n vllm_test python3.10 然后配置该conda环境 conda activate vllm_testpip install vllm 配置好以后启动vllm推理服务 vllm serve path_to/DeepSeek-R1-Distill-Llama-8B –tensor-parallel-size 1 –max-model-len 32768 –enforce-eager –gpu_memory_utilization0.98 –enable-chunked-prefill –port 6060 默认是8000端口可以修改port里的参数来改变服务端口 vllm serve后面的模型路径改为本地下载好的模型的实际绝对路径启动vllm服务后便可以直接提问了比如输入如下命令行 ​ curl http://localhost:6060/v1/chat/completions -H Content-Type: application/json -d {model: path_to/DeepSeek-R1-Distill-Llama-8B ,messages: [{role: system, content: You are a helpful assistant.},{role: user, content: 题目有五个人站成一排每个人手中都拿着一顶帽子帽子的颜色可以是红色、蓝色或绿色。每个人都能看到自己前面的人头上的帽子颜色但看不见自己头上的帽子且每个人只能看到前面人的帽子颜色而无法看见自己的帽子和别人背后的帽子。每个人都可以听到别人说话的内容但不能交换信息。规则每个人都知道一共有三种颜色的帽子红、蓝、绿并且帽子是随机分配的每种颜色可能有多个但也可能没有。每个人会依次回答自己头上的帽子颜色能正确猜出自己帽子颜色的人可以获得奖励。第一个人只能听到后面四个人的回答无法知道任何自己的信息第二个人只能听到后面三个人的回答依此类推。第一个人可以先做一个声明告知后面的人如何推理他们自己的帽子颜色。问题如果所有人都能完美推理出自己头上的帽子颜色问第一个人应该如何开始才能确保最多的人能够猜对自己帽子颜色}],max_tokens: 2000,temperature: 0.7,top_p: 0.9}
2.3.2 基于vllm open WebUi 部署r1 7b 同事文弱因为电脑显存有限所以找了一个量化的7b模型重在跑通流程「如他所说open webui需要docker所以autodl上不能用但是我的电脑显存又比较小我去魔搭社区找到了一个8bit的r1 7b弄的最终在wsl2上启动的vllm服务在Windows上启动的open webui」 对于wsl2的部分 第一步下载模型 git lfs installgit clone https://www.modelscope.cn/okwinds/DeepSeek-R1-Distill-Qwen-7B-Int8-W8A16.git 第二步搭建环境 conda create -n vllm_deploy python3.10conda activate vllm_deploypip install vllm 第三步用vllm启动推理服务 vllm serve /home/duke/playground/models/DeepSeek-R1-Distill-Qwen-7B-Int8-W8A16 –max-model-len 32768 –enforce-eager –gpu_memory_utilization0.9 –enable-chunked-prefill 第四步得到wsl2的实际ip地址 ip addr show eth0 | grep inet | awk {print $2} | cut -d/ -f1172.18.xxx.xxx
对于Windows部分 第一步下载docker桌面版 在docker官网(www.docker.com)下载Windows的docker桌面版第二步运行下载open Webui docker docker run -d -p 3000:8080 –add-hosthost.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main 第三步在本地浏览器输入 localhost:3000 进入open Webui界面 注册并登录之后 点击左下角的settings 在settings的界面再点击admin settings: 在接下来的页面点击Connections点击以后在 Manage OpenAI API Connections 这个框中填入「注意这里只是个设置框并不需要你事先有OpenAI的API」 http://172.18.xxx.xxx:8000/v1 这里的ip地址为wsl2的地址而不是localhost 在同事文弱的环境中必须用http协议否则会报错。默认是https这里需要注意一下 在第二框中填入一个空格即可 点击右下角的齿轮再连接就可以了第四步对话验证 新建一个对话框这个时候就可以找到我们在wsl2中vllm部署的模型了 加载该模型即可开始对话 2.4(选读) 本地手机端部署DeepSeek-R1蒸馏Llama/Qwen后的版本 直接通过这个链接mnn_llm_app_debug_0_1.apk下载Android apk安装之后在应用内的模型列表最后一个直接安装R1-1.5B-Qwen-MNN // 待更 第三部分 无蒸馏前提下本地部署R1 or R1-Zero 671B满血版 本地部署R1 or R1-Zero 满血版又分为两种方式 一种是做了各种量化的此乃属于追求满血版但资源还是有限不得不做的折中处理一种是不做任何量化的这种属于土豪路径如果你是用的这个路线请私我原因很简单我也想多一些土豪朋友 3.1 折中路径无蒸馏但量化部署Deepseek-R1 671B满血版 3.1.1 本地CPU上运行 Deepseek-R1 的完整的硬件 软件设置 huggingface 的一工程师Matthew Carrigan展示了在本地CPU上运行 Deepseek-R1 的完整的硬件 软件设置「他使用的是 670B 模型无蒸馏Q8 量化实现全质量总成本 6,000 美元——GPU版本得10万美元」 核心硬件方面 主板技嘉 MZ73-LM0 或 MZ73-LM1。有 2 个 EPYC 插槽以获得 24 个 DDR5 RAM 通道CPU2x 任何 AMD EPYC 9004 或 9005 CPU “LLM 一代的瓶颈在于内存带宽因此您不需要高端产品。如果真的想降低成本请购买 9115 甚至 9015”RAM24×32GB DDR5-RDIMM 因为需要 768GB以适应模型跨 24 个 RAM 通道以获得足够快的带宽故意味着 24 x 32GB DDR5-RDIMM 模块 关键组件方面 电源该系统的功耗出奇地低400W “但是您需要大量的 CPU 电源线来为 2 个 EPYC CPU 供电。Corsair HX1000i 的功率足够了。”机箱具有用于安装完整服务器主板的螺丝安装座散热器适合AMD EPYC 有 SP5 插槽的就行 系统调优方面 最后SSD任何适合 R1 的 1TB 或更大的 SSD 都可以。“推荐 NVMe只是因为启动模型时你必须将 700GB 复制到 RAM 中软件部分安装 Linux进入 BIOS 并将 NUMA 组数设置为 0。这将确保模型的每一层都交错在所有 RAM 芯片上从而使我们的吞吐量加倍。安装 Llama。下载 700G 的DeepSeek-R1-Q8_0 版本 软件部署 安装llama.cppgit clone https://github.com/ggerganov/llama.cpp下载模型权重HuggingFace Q8_0目录全量700GB⚠️确保存储空间一切完成后设置以下代码 llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf –temp 0.6 -no-cnv -c 16384 -p UserHow many Rs are there in strawberry? Assistant
这个版本没有 GPU生成速度是每秒 6 到 8 个tokens作者认为考虑到价格这个非 GPU 硬件的方案可以接受。因为运行的是 Q8 量化的完整 670B 模型因此质量应与 Deepseek API 无异 至于为什么不用GPU 显存墙限制保持Q8精度需700GB显存单张H100仅80GB → 需9张组集群 → 成本超10万美元量化损耗困境若降精度至FP168卡H100即可运行 → 但模型质量显著下降 ≈ 智商砍半性价比暴击本方案以1/20成本实现可用推理速度对比GPU方案6-8tps vs 50-100tps 3.1.2 GPU上跑无蒸馏但量化的Deepseek-R1 671B满血版 Unsloth AI 在 HuggingFace 上提供了 “动态量化” 版本来大幅缩减模型的体积 所谓“动态量化” 的核心思路是对模型的少数关键层进行高质量的 4-6bit 量化而对大部分相对没那么关键的混合专家层MoE进行大刀阔斧的 1-2bit 量化 为什么可以做呢原因在于他们观察到DeepSeek 的前 3 层是全连接层而非 MoE 层 作为回顾MoE专家混合层使得能够在不增加模型计算量FLOPs的情况下增加参数数量因为他们动态地将大多数条目掩码为 0因此实际上跳过了对这些零值条目的矩阵乘法运算「更多请参阅此条推文x.com/danielhanchen/status/1868748998783517093」 总之通过这种方法DeepSeek R1 全量模型可压缩至最小 131GB1.58-bit 量化极大降低了本地部署门槛甚至能在单台 Mac Studio 上运行Unsloth AI 提供了4 种动态量化模型1.58 至 2.51 比特文件体积为 131GB 至 212GB MoE BitsDisk SizeTypeQualityLinkDown_proj1.58-bit131GBIQ1_SFairhuggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ1_S2.06/1.56bit1.73-bit158GBIQ1_MGoodhuggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ1_M2.06bit2.22-bit183GBIQ2_XXSBetterhuggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ2_XXS2.52.06bit2.51-bit212GBQ2_K_XLBesthuggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-Q2_K_XL3.52.5bit
部署此类大模型的主要瓶颈是内存显存容量建议配置如下 DeepSeek-R1-UD-IQ1_M内存 显存 ≥ 200 GBDeepSeek-R1-Q4_K_M内存 显存 ≥ 500 GB 若硬件条件有限可尝试体积更小的 1.58-bit 量化版131GB可运行于 单台 Mac Studio 192GB 统一内存参考案例可见 X 上的 ggerganov成本约 5600 美元2×Nvidia H100 80GB 参考案例可见 X 上的 hokazuya成本约 4~5 美元 / 小时 且在这些硬件上的运行速度可达到 10 token / 秒 // 待更 3.2 土豪路径无蒸馏不量化部署Deepseek-R1 671B满血版 想既不蒸馏、且不量化部署R1满血版其实过程跟上面差不多但核心问题是对硬件的要求很高——正因为需要十几张H100故涉及到对GPU集群的管理 配置项配置要求GPUH100 * 16CPU128核内存512GB磁盘1TB // 待更