TensorFlow 携手 NVIDIA,使用 TensorRT 优化 TensorFlow Serving 性能

发布时间:{$itemInfo['publish_time']|date='Y-m-d H:i:s',_ _ _必发888立志于打造行业的标杆品牌,多年来客户的支持是必博体育投注前进的动力.必发888平台娱乐成为全世界争相模仿的对象,我们只做最好的娱乐平台.必发888官网亚洲客服24小时竭诚为广大客户服务,欢迎来战!}##} 来源:必发888-必发888平台-必发888官网点击:57

  雷锋网 AI 科技评论按:日前,TensorFlow 团队与 NVIDIA 携手合作,将 NVIDIA 用来实现高性能深度学习推理的平台——TensorRT 与 TensorFlow Serving 打通结合,使用户可以轻松地实现最佳性能的 GPU 推理。目前,TensorFlow Serving 1.13 已实现对 TF-TRT 的支持,而不久后 TensorFlow 2.0 也将支持 TF-TRT 的实现。 TensorFlow 在官方博客中对这项成果进行了发布,雷锋网 AI 科技评论编译如下。

  TensorFlow Serving 是应用于机器学习模型的灵活的高性能服务系统,而 NVIDIA TensorRT 则是一个用以实现高性能深度学习推理的平台,将二者相结合后,用户可以轻松地实现最佳性能的 GPU 推理。TensorFlow 团队与 NVIDIA 携手合作,在 TensorFlow v1.7 中添加了对 TensorRT 的首度支持,此后,他们更是保持密切的合作,共同致力于对 TensorFlow-TensorRT 集成(被称作 TF-TRT)进行改进。。目前,TensorFlow Serving 1.13 已实现对 TF-TRT 的支持,而不久后 TensorFlow 2.0 也将支持 TF-TRT 的实现。

  

  在此前的一篇博客中,我们向大家介绍了怎样如何借助 Docker 来使用 TensorFlow Serving。而在本文中,我们要展示的是:以同样的方法来运行经 TF-TRT 转换的模型到底有多简单。一如既往地,我们尝试将 ResNet 模型部署到生产环境中。下文的所有案例都在配备 Titan-V GPU 的工作站上运行。

  在 GPU 上使用 TensorFlow Serving 创建 ResNet

  在本次练习中,我们简单地下载一个经过预训练的 ResNet SavedModel:

  $ mkdir /tmp/resnet

  $ curl -s

  https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz | tar --strip-components=2 -C /tmp/resnet -xvz

  $ ls /tmp/resnet

  1538687457

  在此前的博客中,我们演示了如何使用 TensorFlow Serving CPU Docker 图像来创建模型。在这里,我们运行 GPU Docker 图像(点击查看相关说明),从而借助 GPU 创建并测试此模型:

  $ docker pull tensorflow/serving:latest-gpu

  $ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \

  -v /tmp/resnet:/models/resnet -e MODEL_NAME=resnet -t tensorflow/serving:latest-gpu &

  …

  … server.cc:313] Running gRPC ModelServer at 0.0.0.0:8500 …

  … server.cc:333] Exporting HTTP/REST API at:localhost:8501 …

  $ curl -o /tmp/resnet/resnet_client.py

  https://raw.githubusercontent.com/tensorflow/serving/master/tensorflow_serving/example/resnet_client.py

  $ python /tmp/resnet/resnet_client.py

  Prediction class: 286, avg latency: 18.0469 ms

  docker run 命令会启动 TensorFlow Serving 服务器,以提供 /tmp/resnet 中已下载的 SavedModel,并在主机中显示 REST API 端口 8501。resnet_client.py 会给服务器发送一些图像,并返回服务器所作的预测。现在让我们停止运行 TensorFlow Serving 容器,来释放其所占用的 GPU 资源:

  $ docker kill tfserving_resnet

  现在,我们有了可以运行的模型。为了能从 TensorRT 受益,我们需要在 TensorFlow Serving Docker 容器内运行转换命令,从而将现有模型转换为使用 TensorRT 运行运算的模型:

  $ docker pull tensorflow/tensorflow:latest-gpu

  $ docker run --rm --runtime=nvidia -it \

  -v /tmp:/tmp tensorflow/tensorflow:latest-gpu \

  /usr/local/bin/saved_model_cli convert \

  --dir /tmp/resnet/1538687457 \

  --output_dir /tmp/resnet_trt/1538687457 \

  --tag_set serve \

  tensorrt --precision_mode FP32 --max_batch_size 1 --

  is_dynamic_op True

  在这里,我们运行了 saved_model_cli 命令行工具,其中内置了对 TF-TRT 转换的支持。--dir 和 --output_dir 参数会告知它在哪里找到 SavedModel 以及输出转换后的 SavedModel,而 --tag_set 则让它知道该转换 SavedModel 中的哪张图表。随后,我们通过在命令行中传递 tensorrt 并指定配置,明确指示其运行 TF-TRT 转换器:

  如此前一样简单,我们现在只需为模型指定正确的目录,便能利用 Docker 提供经 TF-TRT 转换的模型:

  $ docker run --rm --runtime=nvidia -p 8501:8501 \

  --name tfserving_resnet \

  -v /tmp/resnet_trt:/models/resnet \

  -e MODEL_NAME=resnet \

  -t tensorflow/serving:latest-gpu &

  …

  … server.cc:313] Running gRPC ModelServer at 0.0.0.0:8500 …

  … server.cc:333] Exporting HTTP/REST API at:localhost:8501 …

  之后向它发送请求:

  $ python /tmp/resnet/resnet_client.py

  Prediction class: 286, avg latency: 15.0287 ms

  最后,停止运行容器:

  $ docker kill tfserving_resnet

  我们可以看到,使用 TensorFlow Serving 和 Docker 生成经 TF-TRT 转换的模型与创建一个普通的模型一样简单。此外,作为一次演示,上文中的性能数值仅适用于我们所使用的模型和运行该案例的设备,不过它的确体现出使用 TF-TRT 所带来的性能优势。

  接下来就轮到 TensorFlow 2.0 来实现 TF-TRT 了,而 TensorFlow 团队和 NVIDIA 也正在合作以确保 TF-TRT 能在 2.0 中流畅运行。大家可前往 TF-TRT 的 Github 开源项目(https://github.com/tensorflow/tensorrt),查看更全面的信息。雷锋网(公众号:雷锋网)

  via:https://medium.com/tensorflow/optimizing-tensorflow-serving-performance-with-nvidia-tensorrt-6d8a2347869a

  雷锋网原创文章,未经授权禁止转载。详情见转载须知。