东方财富网 > 研报大全 > 行业研报正文

大语言模型服务管理的实践分享

www.eastmoney.com 中智凯灵(北京)科技 查看PDF原文



名称 相关 涨跌幅



名称 相关 净流入(万)

  PART 01

  LLM服务管理的特征与挑战

  GenAI/LLM服务管理面临独特的挑战

  传统网络流量管理

  请求/响应大小较小

  许多查询可以并行处理

  请求一到达就进行处理

  处理时间以毫秒计算

  相似请求可以从缓存中得到处理

  请求成本由后端管理

  传统的轮询或基于利用率的流量管理

  GenAI/LLM流量管理

  由于多模态流量,请求/响应大小较大

  单个大语言模型查询经常占用100%的TPU/GPU计算时间

  请求等待可用的计算资源

  处理时间从几秒到几分钟不等

  每次请求通常生成唯一内容

  根据请求将流量路由到更便宜或更昂贵的模型

  具备AI感知的负载均衡能力

  流量请求调度Traffic Request Scheduling

  由于GenAI/LLM模型的?回归特性,LLM推理请求的有效服务?临不可预测的执?时间的挑战。

  LLM服务系统?多采?先进先出(FCFS)调度,遭受??阻塞(head-of-line)问题。

  基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。

  利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。

郑重声明:东方财富发布此内容旨在传播更多的信息,与本站立场无关,不代表东方财富观点。建议用户在阅读研报过程中,请认真仔细阅读研报里的风险提示、免责声明、重要声明等内容,用户据此操作风险自担。
文中涉及到的个股
最新研究报告
热门个股评级一览
个股未来3年盈利预测
个股财务指标排行榜
以下数据基于个股最新报告期
热门行业追踪

数据来源:东方财富Choice数据

郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。

信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500