当前位置: 首页 > news >正文

微商城网站建设公司百度指数关键词工具

微商城网站建设公司,百度指数关键词工具,做网站l价格,公司专业设计网站模型加载 在day2, 我们尝试了对于llama8B进行转换和推理,可惜最后因为OOM而失败,在day4,我们详细的过了一遍tinyllama的推理,值得注意的是,这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换,引擎的…

模型加载

在day2, 我们尝试了对于llama8B进行转换和推理,可惜最后因为OOM而失败,在day4,我们详细的过了一遍tinyllama的推理,值得注意的是,这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换,引擎的生成,而tinyllama则进行了隐式的执行。

如果参考[1],也有明确的说明。目前模型的推理确实支持多种形式。

量化及调参

接下里,我们的关注点来到: 如何进行各种量化方法的调用,在[2]中提供了对应的实例/。

可以看到的是,他是在LLM的加载和隐式的转换过程中,执行的量化。

    llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",# define the quantization config to trigger built-in end-to-end quantization.quant_config=quant_config)

而在生成结果的过程中,还涉及到很多参数,但这些参数,就与模型的engine无关,而更像是“调参”,在推理的时候指定即可。如下

    # Create a sampling params.sampling_params = SamplingParams(temperature=0.8, top_p=0.95)for output in llm.generate(prompts, sampling_params):print(f"Prompt: {output.prompt!r}, Generated text: {output.outputs[0].text!r}")

显存占用

对于LLM来说,显存的有效利用是一个非常务实的话题,在文档[3]中提到了,模型权重,激活值和I/O tensor会占用显存大小,这里的I/O tensor概念感觉很很隐晦,按我的理解,这是通过一个类似page的形式,进行显存管理?其中,也包含了kv cache,.

另外,文档中还提到了memory pool, 这个的概念,我也不太理解其对应的实现。

今天就先到这吧。

 

[1] LLM Examples Introduction — tensorrt_llm documentation

[2] LLM Quantization — tensorrt_llm documentation 

[3] Memory Usage of TensorRT-LLM — tensorrt_llm documentation

http://www.tj-hxxt.cn/news/106420.html

相关文章:

  • 如何做网站淘宝客技能培训网
  • php可以开发动态网站直通车怎么开才有效果
  • 东莞东城社保局电话厦门专业做优化的公司
  • 遵化建行网站产品怎么做推广和宣传
  • 网站建设公司如何生存营销策划与运营方案
  • 网站改版后不收录百度seo优化是什么
  • 排名优化公司哪家效果好seo推广代理
  • 重新wordpress默认谷歌seo课程
  • 做网站的ui网络科技
  • wordpress探针seo关键词排名优化品牌
  • 常州seo外包公司西安企业seo
  • linux下网站开发北京网站快速优化排名
  • Wordpress防暴力破解插件seo高端培训
  • 网站封了给个能用的广州seo网站
  • 网站屏幕自适应国内最新新闻大事
  • 做网站设计可以参照别人的么网络管理系统
  • 网站建设服务费会计分录搜索引擎营销方式
  • 平台推广话术海外广告优化师
  • 聊城手机网站建设方案产品推广宣传方案
  • dw 做的网站能用吗衡阳seo优化首选
  • 做公司网站多钱成都建设网官网
  • wordpress自定义文章类型标签百度移动端关键词优化
  • 网站建设狼盾网络企业网站模板下载
  • 宝塔网站301重定向怎么做线上推广是什么意思
  • wangzhan外贸网站seo优化
  • 邢台新闻最新事件上海何鹏seo
  • 东乡做网站百度怎么找人工客服
  • 免费网站模板的制作方法深圳网络推广团队
  • seo整站优化报价做推广哪个平台效果好
  • 官方网站找做化妆品套盒子竞价推广怎样管理