app网站做二手交易富阳建立网站的
- 作者: 多梦笔记
- 时间: 2026年02月15日 23:39
当前位置: 首页 > news >正文
app网站做二手交易,富阳建立网站的,可以自己设计装修的免费软件,违规网站开发 开发者如何规避风险点击蓝字 关注我们,让开发变得更有趣 作者 | 武卓 博士 排版 | 李擎 Hello#xff0c; OpenVINO™ 2024.2 对我们来说#xff0c;这是非常忙碌的几周#xff0c;因为我们正在努力根据您的反馈改进我们的产品特性#xff0c;并扩展生态系统以涵盖其它场景和用例。 让我们看看… 点击蓝字 关注我们,让开发变得更有趣 作者 | 武卓 博士 排版 | 李擎 Hello OpenVINO™ 2024.2 对我们来说这是非常忙碌的几周因为我们正在努力根据您的反馈改进我们的产品特性并扩展生态系统以涵盖其它场景和用例。 让我们看看我们所做的最重要的更改。有关更详细的列表您可以随时参考我们的完整 [新版本说明] https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html OpenVINO™ 隆重推出 OpenVINO.GenAI 软件包和 LLM特定 API 生成式 AI 正在被应用程序设计人员快速地使用着。这不仅体现在使用来自商业云服务模型的传统REST API形式上而且还发生在客户端和边缘。越来越多的数据正在客户端处理通过AIPC我们为此开始看到更多的机会。其中一种场景是人工智能助手它能够生成文本邮件草稿、文档摘要、文档内容的答案等等。这一切都由 LLM大型语言模型和不断增长的 SLM小型语言模型系列提供支持。 我们引入了新的软件包 openvino-genai它使用OpenVINO™ 以及其中的openvino_tokenizers因此如果您打算运行 LLM安装此软件包就足够了。经典的 OpenVINO API 也支持其它类型的模型因此现在流水线构建变得更加容易。我们的安装选项也进行了更新以便反映并指导使用新软件包因此请在那里查看您最合适的选项。经典的 OpenVINO™ 软件包仍然存在如果您暂时不打算使用生成式 API请继续使用 openvino 软件包。 安装选项更新 https://docs.openvino.ai/2024/get-started/install-openvino.html 经典OpenVINO™软件包 https://www.intel.cn/content/www/cn/zh/developer/tools/openvino-toolkit/download.html 为了通过 LLM 生成结果应用程序需要执行整个操作流水线执行输入文本的分词处理输入上下文迭代生成模型答案的后续输出分词最后将答案从分词解码为纯文本。每个分词的生成都是推理调用然后是后续逻辑来选择分词本身。逻辑可以是贪婪搜索的形式也就是选择最可能的分词也可以是波束搜索的形式即保持很少的序列并选择其中最好的。 虽然OpenVINO™在推理方面大放异彩但正如我们刚才所讨论的这还不足以涵盖整个文本生成的流水线。在 2024.2 版本之前我们提供了帮助程序分词器和示例来实现这一点但应用程序必须使用这些组件实现整个生成逻辑。现在这种情况正在发生改变。 在 24.2 版本中我们引入了特定于 LLM 的 API这些 API 隐藏了内部生成循环的复杂性并显著减少了需要在应用程序中编写的代码量。通过使用特定于 LLM 的 API您可以加载模型向其传递上下文并通过几行代码返回响应。在内部OpenVINO™将对输入文本进行分词化在您选择的设备上执行生成循环并为您提供答案。让我们一步一步地看看这是如何使用Python和C完成的。 第一步 通过Hugging Face Optimum-Intel导出 LLM 模型我们使用了针对聊天微调的 Tiny Llama 以下是将OpenVINO IR格式的LLM模型导出为FP16或INT4精度的两种方式。为了使LLM推理性能更高我们建议对模型权重使用较低的精度即INT4并在模型导出过程中直接使用神经网络压缩框架NNCF压缩权重如下所示。 FP16 optimum-cli export openvino –model TinyLlama/TinyLlama-1.1B-Chat-v1.0 –weight-format fp16 –trust-remote-code INT4 optimum-cli export openvino –model TinyLlama/TinyLlama-1.1B-Chat-v1.0 –weight-format int4 –trust-remote-code 第二步 使用C或Python进行生成 通过新的C API进行LLM生成 #include openvino/genai/llm_pipeline.hpp #include iostreamint main(int argc, char* argv[]) {std::string model_path argv[1];ov::genai::LLMPipeline pipe(model_path, CPU);//target device is CPUstd::cout pipe.generate(The Sun is yellow bacause); //input context } 通过新的 Python API 进行生成 import openvino_genai as ov_genai pipe ov_genai.LLMPipeline(model_path, CPU) print(pipe.generate(The Sun is yellow bacause)) 如您所见只需要几行代码就能建立一个LLM生成的流水线。这是因为从 Hugging Face Optimum-Intel 导出模型后它已经存储了执行所需的所有信息包括分词器/反分词器和生成配置从而能够获得与 Hugging Face 生成匹配的结果。我们提供 C 和 Python API 来运行 LLM、最少的依赖项列表和对应用程序的添加。 为了实现生成式模型更具交互性的UI界面我们添加了对模型输出分词流式处理的支持。在下面的示例中我们使用简单的 lambda 函数在模型生成单词后立即将单词输出到控制台 #include openvino/genai/llm_pipeline.hpp #include iostreamint main(int argc, char* argv[]) {std::string model_path argv[1];ov::genai::LLMPipeline pipe(model_path, CPU);auto streamer { std::cout word std::flush; };std::cout pipe.generate(The Sun is yellow bacause, streamer); } 您也可以创建自定义流处理器进行更复杂的处理这在我们的 [文档] 中进行了描述。 文档 https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-guide.html 最后我们还研究了聊天场景其中输入和输出代表对话并且有机会以在输入之间保留 KV缓存 的形式进行优化。为此我们引入了聊天特定方法 start_chat 和 finish_chat它们用于标记会话的开始和结束。下面是一个非常简单的 C 示例 int main(int argc, char* argv[]) {std::string prompt;std::string model_path argv[1];ov::genai::LLMPipeline pipe(model_path, CPU);pipe.start_chat();for (;;) {std::cout question:\n;std::getline(std::cin, prompt);if (prompt Stop!)break;std::cout answer:\n;auto answer pipe(prompt);std::cout answer std::endl;}pipe.finish_chat(); } 在上面的所有示例中我们都使用 CPU 作为目标设备但 GPU 也同样是支持的。请记住GPU 将为 LLM 本身运行推理分词选择逻辑和分词化/去分词化将保留在 CPU 上因为这更有效率。内置的分词器以单独的模型形式表示并通过我们的推理功能在 CPU 上运行。 这个 API 使我们能够更灵活、更优化地实现生成逻辑并不断扩展。请继续关注后续发布版本中的更多功能 同时请务必查看我们的 [文档] 和 [示例] 以获取新的 API尝试后告诉我们你的想法。 文档 https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-guide.html 示例 https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-question-answering OpenVINO™ 通过OpenVINO扩展模型服务 通过服务化部署模型是一个非常成熟的方法论并且随着基于微服务的部署不仅在传统的云环境中扩展同时也在向边缘计算领域扩展这一需求日益增长。更多的应用被开发为微服务并部署在智能边缘和云中。在2024.2 版本中我们引入了对服务场景的额外支持。让我们来看看最重要的变化。 OpenVINO模型服务器是我们长期开发的模型服务解决方案它被应用程序广泛采用以最有效的方式为模型提供服务。在此版本中我们引入了通过称为连续批处理的机制为LLM提供高效服务的能力。 连续批处理 https://www.anyscale.com/blog/continuous-batching-llm-inference 从本质上讲连续批处理允许我们通过将多个请求合并到批处理中来以最有效的方式实现推理服务。由于生成过程中上下文大小的差异传统批处理文本生成方案的方式非常有限。实际上不可能找到两个相同长度的不同请求并生成相同长度的输出来执行传统的请求批处理。为了解决这个问题我们采用了分页注意力方法就像在 vLLM 实现中的那样。这使我们能够将多个请求合并到同一模型中并提高硬件利用率。不过调度请求的内部逻辑是不同的我们考虑了 CPU 在设计时使其更高效的细节结合了高吞吐量和低延迟使其更高效。 为了以最适应应用程序的方式部署 LLM我们在文本生成的使用场景实现了 OpenAI 兼容的API。我们的实现包括 连续批处理和分页注意力算法因此文本生成可以在高并发负载下快速高效。这使得您可以允许在云中或本地如果需要的话创建自己的类似 OpenAI 的 LLM 服务端点。 尽管 LLM 备受瞩目但传统的深度学习模型作为独立解决方案或大型流程的一部分仍有着高度需求。OVMS 可以长时间高效地部署这些模型但对其它部署解决方案的需求非常高因此我们为服务场景引入了一些额外的 OpenVINO™ 集成通过 TorchServe 和 Nvidia Triton 提供服务。 OpenVINO™ 长期以来一直为 Triton Serving 提供后端我们最近与 Nvidia 工程师合作重新设计了它的附加功能例如支持动态输入。您可以在我们的博客文章中查看有关如何在 Triton 中使用 OpenVINO™ 的更多详细信息。 博客文章 https://medium.com/openvino-toolkit/how-to-serve-models-on-nvidia-triton-inference-server-with-openvino-backend-a4c36300ee21 服务功能的另一个重要补充是通过使用 torch.compile 的 OpenVINO™ 后端使用 TorchServe 为模型提供服务。在引入 torch.compile 之后TorchServe 引入了通过不同后端加速服务的功能。这正是OpenVINO™现在发生的事情我们提供了在TorchServe中指定OpenVINO™作为后端的功能。有关更多详细信息您可以查看示例这些示例非常简单且不言自明。 torch.compile 的 OpenVINO™ 后端 https://docs.openvino.ai/2024/openvino-workflow/torch-compile.html 示例 https://github.com/pytorch/serve/tree/master/examples/pt2/torch_compile_openvino OpenVINO™ 性能提升 我们仍然专注于 AI 模型的性能表现。尽管 AIPC 的出现LLM 在客户端的采用仍然对底层硬件产生压力。我们的优化工作覆盖了不同的支持目标包括 CPU、GPU 和 NPU。 AIPC与传统PC的不同在于它集成了专门的硬件加速器随着AI应用场景从云端转向个人计算领域其重要性日益增加。英特尔®酷睿™Ultra处理器提供了更强大的GPU以及NPU。从性能和效率的角度来看这些都让加速解决方案更具吸引力。 如果平台性能不足我们始终能够通过添加我们的ARC系列独立显卡进行加速来实现进一步的性能提升。为了帮助实现LLM部署特性我们一直专注于加速GPU的LLM的推理性能覆盖了集成显卡和独立显卡。将负载卸载到 GPU 不仅是因为它的特性适宜处理这类工作负载还因为需要保持 CPU 可用。因此推理期间的 CPU 负载对于此类情况至关重要。我们一直在努力优化 CPU 端负载并减少主机代码延迟至少一半。这也使我们能够实现更好的 GPU 特性因为内核调度现在更加高效。 此外我们还致力于少数GPU基本操作的更高效实现包括 Scaled Dot Product Attention 和 Positional Embeddings 的融合版本。这不仅改善了延迟还减少了推理期间的主机开销和整体内存消耗这对于在笔记本电脑上运行 LLM 等场景至关重要。 独立显卡上一些LLM的延迟已经降低我们正与oneDNN团队的合作伙伴一起继续我们的优化之旅。 虽然我们经常谈论 GPU但 CPU 等其他目标设备的性能也有所改进。在CPU上第二个分词延迟的性能得到了明显改善以及在基于AVX213代英特尔酷睿处理器和AVX512第三代至强可扩展处理器的CPU平台上FP16权重的LLM的内存占用情况也得到了明显改善尤其是在小批量的情况下。更不用说我们还在 Optimum-Intel 集成中持续增加了对新模型的覆盖。 OpenVINO™ 新模型和notebooks示例 在每次发布的新版本中我们都会继续扩大对新模型的支持以及增加新的Notebook代码示例展示如何在这些使用用例中利用OpenVINO™。对于新模型我们增加了对TensorFlow*Hub的mil-nce和openimages-v4-sd-mobilent-v2的支持以及Phi-3-mini这是一个AI模型家族利用小语言模型的力量实现更快、更准确和更具成本效益的文本处理。 Notebooks代码示例可以成为用户学习和体验的宝贵内容。在这个版本中我们添加了几个新的Notebooks。最值得注意的是用于动画图像的DynamiCrafter notebook用于转换和优化YOLOv10为OpenVINO™的notebook以及在现有LLMChatbot notebook中添加Phi-3-mini模型以便用户可以尝试更多的LLM模型。 可以在以下地址找到最新的带有GitHub验证状态的notebookshttps://openvinotoolkit.github.io/openvino_notebooks/以下是已更新或新添加的notebooks: Image to Video Generation with Stable Video Diffusionhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/stable-video-diffusion/stable-video-diffusion.ipynbImage generation with Stable Cascadehttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/stable-cascade-image-generation/stable-cascade-image-generation.ipynbOne Step Sketch to Image translation with pix2pix-turbo and OpenVINOhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/sketch-to-image-pix2pix-turbo/sketch-to-image-pix2pix-turbo.ipynbAnimating Open-domain Images with DynamiCrafter and OpenVINOhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/dynamicrafter-animating-images/dynamicrafter-animating-images.ipynbText-to-Video retrieval with S3D MIL-NCE and OpenVINOhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/s3d-mil-nce-text-to-video-retrieval/s3d-mil-nce-text-to-video-retrieval.ipynbConvert and Optimize YOLOv10 with OpenVINOhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/yolov10-optimization/yolov10-optimization.ipynbVisual-language assistant with nanoLLaVA and OpenVINOhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/nano-llava-multimodal-chatbot/nano-llava-multimodal-chatbot.ipynbPerson Counting System using YOLOV8 and OpenVINO™https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/person-counting-webcam/person-counting.ipynbQuantization-Sparsity Aware Training with NNCF, using PyTorch frameworkhttps://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/pytorch-quantization-sparsity-aware-training/pytorch-quantization-sparsity-aware-training.ipynb OpenVINO™ 总结 在此我们兴奋地宣布OpenVINO™ 2024.2最新版本现已开放下载 我们的团队一直致力于各项新特性和性能提升的研发。一如既往我们努力不断优化用户体验拓宽OpenVINO™的功能边界。我们的开发路线图上已经规划了下一版本的诸多特性迫不及待在未来与您分享。感谢大家的支持与厚爱 OpenVINO™ –END– 点击下方图片让我们一起成为“Issues 猎手”共创百万用户开源生态 你也许想了解(点击蓝字查看)⬇️➡️ OpenVINO™ 助力 Qwen 2 —— 开启大语言模型新时代➡️ 揭秘XPU架构下AIGC的推理加速艺术–AI PC 新纪元将 AI 引入 NPU实现快速低功耗推理➡️ 隆重介绍 OpenVINO™ 2024.0: 为开发者提供更强性能和扩展支持➡️ 隆重推出 OpenVINO 2023.3 ™ 最新长期支持版本➡️ OpenVINO™ 2023.2 发布让生成式 AI 在实际场景中更易用➡️ 开发者实战 | 介绍OpenVINO™ 2023.1在边缘端赋能生成式AI➡️ 5周年更新 | OpenVINO™ 2023.0让AI部署和加速更容易➡️ OpenVINO™5周年重头戏2023.0版本持续升级AI部署和加速性能➡️ 开发者实战系列资源包来啦 扫描下方二维码立即体验 OpenVINO™ 工具套件 2024.1 点击 阅读原文 获取最新版OpenVINO™2024.2 评论区已开放欢迎大家留言评论 文章这么精彩你有没有“在看”?
- 上一篇: app网站制作多少钱网站有后台更新不了
- 下一篇: app与手机网站的区别黑群晖的做网站文件
相关文章
-
app网站制作多少钱网站有后台更新不了
app网站制作多少钱网站有后台更新不了
- 站长
- 2026年02月15日
-
APP网站怎么做怎么做网站
APP网站怎么做怎么做网站
- 站长
- 2026年02月15日
-
APP网站怎么做php怎么做全网小视频网站
APP网站怎么做php怎么做全网小视频网站
- 站长
- 2026年02月15日
-
app与手机网站的区别黑群晖的做网站文件
app与手机网站的区别黑群晖的做网站文件
- 站长
- 2026年02月15日
-
app源码网站crm系统架构图
app源码网站crm系统架构图
- 站长
- 2026年02月15日
-
app展示网站模板html5网站的后台怎么做
app展示网站模板html5网站的后台怎么做
- 站长
- 2026年02月15日
