个股研报搜索:
大语言模型服务管理的实践分享
| 领 涨 个 股 |
名称 | 相关 | 涨跌幅 |
|---|
| 资 金 流 入 |
名称 | 相关 | 净流入(万) |
|---|
PART 01
LLM服务管理的特征与挑战
GenAI/LLM服务管理面临独特的挑战
传统网络流量管理
请求/响应大小较小
许多查询可以并行处理
请求一到达就进行处理
处理时间以毫秒计算
相似请求可以从缓存中得到处理
请求成本由后端管理
传统的轮询或基于利用率的流量管理
GenAI/LLM流量管理
由于多模态流量,请求/响应大小较大
单个大语言模型查询经常占用100%的TPU/GPU计算时间
请求等待可用的计算资源
处理时间从几秒到几分钟不等
每次请求通常生成唯一内容
根据请求将流量路由到更便宜或更昂贵的模型
具备AI感知的负载均衡能力
流量请求调度Traffic Request Scheduling
由于GenAI/LLM模型的?回归特性,LLM推理请求的有效服务?临不可预测的执?时间的挑战。
LLM服务系统?多采?先进先出(FCFS)调度,遭受??阻塞(head-of-line)问题。
基于历史数据和模型特性,训练出一个代理模型,用于预测每个推理请求的序列长度。
利用代理模型的序列长度预测的推测最短作业优先(SSJF)调度器。
郑重声明:东方财富发布此内容旨在传播更多的信息,与本站立场无关,不代表东方财富观点。建议用户在阅读研报过程中,请认真仔细阅读研报里的风险提示、免责声明、重要声明等内容,用户据此操作风险自担。
以下数据基于个股最新报告期