IT之家 8 月 27 日音讯,智谱 AI 今天宣告,GLM-4-Flash 大模型免费敞开,经过智谱 AI 大模型敞开渠道调用。
GLM-4-Flash 适用于完结简略笔直、低本钱、需求快速呼应的使命,生成速度能到达 72.14 token/s,约等于 115 字符/s。
GLM-4-Flash 具有多轮对话、网页阅读、Function Call(函数调用)和长文本推理(支撑最大 128K 上下文)等功能,一起支撑包含中文、英语、日语、韩语、德语在内的 26 种言语。
官方表明,经过选用自适应权重量化、多种并行化办法、批处理战略以及投机采样等多种办法,在推理层面完成模型的推迟下降与速度提高,更大并发量和吞吐量不只提高了功率,并且让推理本钱显着下降,然后免费推出。
在预练习方面,官方引入了大言语模型进入数据挑选流程,取得 10T 高质量多言语数据,数据量是 ChatGLM3-6B 模型的 3 倍以上;一起选用了 FP8 技能进行预练习,提高了练习功率和核算量。