Jetson 部署 GPT OSS 20B - 1

Jetson 部署 GPT OSS 20B

一键通过 SSH 在 NVIDIA Jetson 上部署 GPT OSS 20B,使用预构建 Docker 镜像,自动启动推理服务。

入门10min大语言模型
Jetson大模型dockeredge-ai

这个能力做什么

通过 SSH 一键把 GPT OSS 20B 大模型部署到 NVIDIA Jetson 设备上。部署完成后,容器自动启动 llama-server,在 8080 端口提供兼容 OpenAI 格式的 HTTP 推理服务。

输出接口

接口类型说明端口/路径数据格式
HTTP API兼容 OpenAI 的对话补全接口:8080/v1/chat/completionsJSON

部署完成后,打开浏览器访问:

http://<jetson-ip>:8080

适用集成场景

  • 作为本地 AI 对话后端,接入聊天机器人或语音助手
  • 配合 OpenClaw 网关,同时对接微信、Telegram 等多个聊天平台
  • 为边缘设备提供离线大模型推理能力,无需云端 API

使用须知

硬件要求

  • Jetson Orin NX 16GB 或更高配置(20B 模型需要约 12-15GB 显存)
  • reComputer J4012 已验证可用,其他 Jetson Orin 机型需确认显存充足

调用方式

  • API 地址:http://<jetson-ip>:8080/v1/chat/completions
  • 兼容 OpenAI 格式,可直接用现有 SDK 调用
  • Python 示例:import openai; openai.api_base = "http://<jetson-ip>:8080/v1"

首次请求延迟

  • 部署完成后首次调用可能需要等待 2-5 分钟(模型加载预热)
  • 可访问 http://<jetson-ip>:8080/v1/models 检查服务是否就绪
  • 预热完成后,后续请求响应较快(通常 1-3 秒)

Token 与上下文

  • 默认上下文窗口约 2048 tokens,可在部署时调整
  • 如需更大上下文,可在配置中调高 Llama Context 参数(会占用更多显存)
  • 单次请求建议控制在 1000 tokens 以内,避免显存溢出

技术规格

指标数值
模型GPT OSS 20B
推理框架llama.cpp (llama-server)
支持硬件reComputer J4012 (Jetson Orin NX 16GB)
服务端口8080
API 格式OpenAI 兼容

集成接口

http

OpenAI-compatible chat completion API

/v1/chat/completions · Port: 8080 · Method: POST
{"choices":[{"message":{"content":"response text"}}]}

部署方案

edge_device
联系我们
获取方案参考设计与产品选型支持。
下一步