NVIDIA 发表能缩减一半语言推论时间的 TensorRT 8 AI 套件,能提升对话式 AI 、推荐系统效益

NVIDIA 宣布新一代的 AI 软体套件 TensorRT 8 ,强调能够使语言推论时间缩减一半,对于应用在搜寻引擎、广告推荐、聊天机器人等带来显着的效益。TensorRT 8 针对语言相关应用进行最佳化,可在 1.2ms 执行庞大的 B

NVIDIA 宣布新一代的 AI 软体套件 TensorRT 8 ,强调能够使语言推论时间缩减一半,对于应用在搜寻引擎、广告推荐、聊天机器人等带来显着的效益。TensorRT 8 针对语言相关应用进行最佳化,可在 1.2ms 执行庞大的 BERT-Large ,不须屈就性能缩减模型规模导致準确率下降。

照片中提到了ANNOUNCING TensorRT 8.0、World-Leading Performance & Accuracy on NVIDIA Ampere Archi tec ture GPUS、2x,跟名人游轮有关,包含了图、业务流程、数据、计算机和信息技术、组织

▲藉由 Ampere 的结构化稀疏技术、量化感知训练使 TensorRT 8 具更高的推论性能

TensorRT 8 得以大幅提升推论性能,除了软体持续精进以外,更重要的是发挥 Ampere 架构两项关键技术,其一是藉由结构化稀疏减少运算操作并提高效率,另一项关键是能够以 INT8 精度执行却不会缩减精度的量化感知训练技术,在两者相互结合之下使 TensorRT 8 推论性能再次提高。

照片中提到了TensorRT 8 SLASHES BERT INFERENCE、Brings a New Wave of Real-Time Conversational Al Applic ations、1.2 ms,跟磨砂爸爸有关,包含了图、商标、牌、产品设计、字形

 

▲ TensorRT8 搭配 NVIDIA A100 ,相较 TensorRT 7 搭配 NVIDIA V100 在 BERT 快了 2.5 倍

TensorRT 8 应用在当前 AI 语言认知的 BERT 能够相益得张,不仅搭配 NVIDIA A100 执行 BERT 快了 2.5 倍,并可在 1.2ms 执行 BERT-Large 的推论,这也意味着各类语意认知应用如推荐系统、聊天机器人等能够在极短的时间以比过往大 2 到 3 倍的模型作为基础进行 AI 推论,能大幅提升语言认知的準确性并提高判断的正确性。

照片中提到了NVIDIA TensorRT ADOPTED EVERYWHERE、The World's Most Advanced Inference SDK、2.5M,跟LG G5、SK电讯有关,包含了软件、产品设计、多媒体、牌、产品

▲各领域广泛应用 TensorRT 开发 AI 应用,自大型数据中心到嵌入式产品皆有

TensorRT 自推出 5 年来广泛被业界所採用,不仅只是 TensorRT 推出的早,能贯串 NVIDIA 自加速器、运算产品到嵌入式产品的 GPU 的统一开发平台、可移植性以及不断提升效率等特色,使得 TensorRT 当前已被 27,500 家企业、达 35 万开发者下载近 250 万次,从资料中心到嵌入式、车载系统皆可看到 TensorRT 的应用。

照片中提到了RECOMMENDERS、THE PERSONALIZATION ENGINE OF THE INTERNET、DIGITAL CONTENT,包含了多媒体、数码展示广告、产品、牌、字形

▲许多串流影音服务、线上购物、社群、数位广告使用的推荐系统是基于 TensorRT 为基础

此次 NVIDIA 也与合作伙伴 Hugging Face 与 GE Health 公布部分应用成果, Hugging Face 藉由 NVIDIA GPU 、 TensorRT 8 执行 Hugging Face Accelerated Inference API ,达到 100 倍的加速效果,并达成仅 1ms 左右的 BERT 推论时间;至于 GE Health 将 TensorRT 应用于超音波医疗影像的机器视觉,藉由 Vivid E95 扫描仪拍摄的自动心脏图结合基于 TensorRT 的机器视觉分析,实现近乎即时的心脏壁运动影像挑选与分析。

原创文章,作者:阿浩,如若转载,请注明出处:https://www.53moban.com/6158.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息