大语言模型服务管理的实践分享

www.eastmoney.com 中智凯灵(北京)科技查看PDF原文

领涨个股	名称	相关	涨跌幅

资金流入	名称	相关	净流入(万)

　　PART 01

　　LLM服务管理的特征与挑战

　　GenAI/LLM服务管理面临独特的挑战

　　传统网络流量管理

　　请求/响应大小较小

　　许多查询可以并行处理

　　请求一到达就进行处理

　　处理时间以毫秒计算

　　相似请求可以从缓存中得到处理

　　请求成本由后端管理

　　传统的轮询或基于利用率的流量管理

　　GenAI/LLM流量管理

　　由于多模态流量，请求/响应大小较大

　　单个大语言模型查询经常占用100%的TPU/GPU计算时间

　　请求等待可用的计算资源

　　处理时间从几秒到几分钟不等

　　每次请求通常生成唯一内容

　　根据请求将流量路由到更便宜或更昂贵的模型

　　具备AI感知的负载均衡能力

　　流量请求调度Traffic Request Scheduling

　　由于GenAI/LLM模型的?回归特性，LLM推理请求的有效服务?临不可预测的执?时间的挑战。

　　LLM服务系统?多采?先进先出（FCFS）调度，遭受??阻塞（head-of-line）问题。

　　基于历史数据和模型特性，训练出一个代理模型，用于预测每个推理请求的序列长度。

　　利用代理模型的序列长度预测的推测最短作业优先（SSJF）调度器。

今日最新研究报告查看PDF原文

郑重声明：东方财富发布此内容旨在传播更多的信息，与本站立场无关，不代表东方财富观点。建议用户在阅读研报过程中，请认真仔细阅读研报里的风险提示、免责声明、重要声明等内容，用户据此操作风险自担。

文中涉及到的个股

最新研究报告

点击查看全部>>

热门个股评级一览

个股未来3年盈利预测

个股财务指标排行榜

以下数据基于个股最新报告期

热门行业追踪

数据来源：东方财富Choice数据

郑重声明：东方财富网发布此信息的目的在于传播更多信息，与本站立场无关。东方财富网不保证该信息（包括但不限于文字、视频、音频、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担。

东方财富

扫一扫下载APP

东方财富产品

证券交易

关注东方财富

天天基金

扫一扫下载APP

基金交易

关注天天基金

期货交易

信息网络传播视听节目许可证：0908328号经营证券期货业务许可证编号：913101046312860336 违法和不良信息举报:021-61278686 举报邮箱：jubao@eastmoney.com

关于我们可持续发展广告服务供应商平台联系我们诚聘英才法律声明隐私保护征稿启事友情链接

亲爱的市民朋友，上海警方反诈劝阻电
话“962110”系专门针对避免您财产被
骗受损而设，请您一旦收到来电，立即
接听。