TensorRT-LLMs/curl_completion_client.sh at 5df03b2ea775d49b1da38ffd19b1b585150dd9e4 - TensorRT-LLMs - Gitea: Git with a cup of tea

kanshan/TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Yechan Kim 5460d18b10

feat: trtllm-serve multimodal support (#3590 )

* feat: trtllm-serve multimodal support

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>

* remove disable argument

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>

* remove disable

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>

* add and separate tests and move the doc

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>

* remove block_resue arg from serve.py

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>

---------

Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>
Co-authored-by: Haohang Huang <31998628+symphonylyh@users.noreply.github.com>

2025-04-19 05:01:28 +08:00

11 lines

261 B

Bash

Raw Blame History

 #! /usr/bin/env bash
 curl http://localhost:8000/v1/completions \
     -H "Content-Type: application/json" \
     -d '{
         "model": "TinyLlama-1.1B-Chat-v1.0",
         "prompt": "Where is New York?",
         "max_tokens": 16,
         "temperature": 0
     }'