Inference Catalog | Inference Endpoints by Hugging Face

Inference Endpoints

Catalog

Inference Task

All Available Tasks Text Generation Text-to-Image Image-Text-to-Text Sentence Embeddings Sentence Similarity Text Ranking Automatic Speech Recognition Feature Extraction

Price $ 0 - 50 / hour

0
0.1
0.5
1
5
50

Inference Engine

All Llama.cpp TEI vLLM SGLang

Hardware Accelerator

ALL CPU GPU INF2

License

Hub Models

Browse All Models

Model Catalog

110 items

Applied Filters

none

gemma-4-26B-A4B-it-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia L4

gemma-4-31B-it

Image-Text-to-Text

Accelerated vLLM

GPU 2x Nvidia H200

gemma-4-26B-A4B-it

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia H200

Qwen3.5-9B-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia T4

Qwen3.5-35B-A3B-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia L4

Mistral-Small-4-119B-2603

Text Generation

Accelerated vLLM

GPU 2x Nvidia H200

MiniMax-M2.5

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

GLM-5-FP8

Text Generation

Accelerated vLLM

GPU 8x Nvidia H200

Qwen3.5-397B-A17B-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 2x Nvidia H200

Qwen3-Embedding-8B

Feature Extraction

Accelerated vLLM

Qwen3-Embedding-4B

Feature Extraction

Accelerated vLLM

Qwen3-Embedding-0.6B

Feature Extraction

Accelerated vLLM

Qwen3-Coder-Next-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia A100

MiniMax-M2.1

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

MiniMax-M2.1-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia H200

GLM-4.7-Flash-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L4

Devstral-Small-2-24B-Instruct-2512

Text Generation

Accelerated vLLM

GPU 1x Nvidia H200

granite-3.3-8b-instruct-FP8

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

gpt-oss-safeguard-20b

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

olmOCR-2-7B-1025-FP8

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

Qwen3-VL-30B-A3B-Thinking

Image-Text-to-Text

Accelerated vLLM

GPU 2x Nvidia A100

Qwen3-VL-8B-Instruct

Deployed 166 times

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia A100

LightOnOCR-1B-1025

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L4

DeepSeek-OCR

Deployed 201 times

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L4

GLM-4.1V-9B-Thinking

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

ServiceNow-AI /

Apriel-1.5-15b-Thinker

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia H200

rednote-hilab /

dots.ocr

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L4

Nanonets-OCR-s

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

Qwen3-Embedding-8B-GGUF

Feature Extraction

Accelerated llama.cpp

GPU 1x Nvidia T4

Qwen3-Embedding-4B-GGUF

Feature Extraction

Accelerated llama.cpp

GPU 1x Nvidia T4

Qwen3-Embedding-0.6B-GGUF

Feature Extraction

Accelerated llama.cpp

CPU 2x Intel Sapphire Rapids

granite-4.0-micro

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen3-Next-80B-A3B-Instruct

Text Generation

Accelerated vLLM

GPU 2x Nvidia H200

Qwen3-Next-80B-A3B-Thinking

Text Generation

Accelerated vLLM

GPU 2x Nvidia H200

Apertus-8B-Instruct-2509

Text Generation

Accelerated SGLang

GPU 1x Nvidia L4

embeddinggemma-300m

Sentence Similarity

Accelerated Text Embeddings Inference

CPU 2x Intel Sapphire Rapids

onnx-community /

embeddinggemma-300m-ONNX

Sentence Similarity

Accelerated Text Embeddings Inference

CPU 2x Intel Sapphire Rapids

gpt-oss-120b

Deployed 337 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia RTX PRO 6000 Blackwell

gpt-oss-20b

Deployed 469 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia RTX PRO 6000 Blackwell

Qwen3-32B

Text Generation

Accelerated vLLM

GPU 1x Nvidia H200

granite-3.3-8b-instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Qwen3-Embedding-0.6B

Deployed 183 times

Feature Extraction

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

Qwen3-Embedding-4B

Feature Extraction

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

Qwen3-Embedding-8B

Deployed 221 times

Feature Extraction

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

nomic-embed-text-v1.5

Sentence Similarity

Accelerated Text Embeddings Inference

CPU 8x Intel Sapphire Rapids

HuggingFaceTB /

SmolLM3-3B

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen3-1.7B

Deployed 156 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

DeepSeek-R1-GGUF

Text Generation

Accelerated llama.cpp

GPU 4x Nvidia RTX PRO 6000 Blackwell

InternVL3-14B-Instruct-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia L4

Qwen2.5-VL-3B-Instruct-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia T4

Qwen2.5-VL-7B-Instruct-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia T4

SmolVLM2-2.2B-Instruct-GGUF

Image-Text-to-Text

Accelerated llama.cpp

GPU 1x Nvidia T4

bge-multilingual-gemma2

Sentence Embeddings

GPU 1x Nvidia L40S

jina-reranker-v1-turbo-en-GGUF

Accelerated llama.cpp

CPU 8x Intel Sapphire Rapids

cross-encoder /

ms-marco-MiniLM-L12-v2

CPU 1x Intel Sapphire Rapids

bge-reranker-base

Accelerated Text Embeddings Inference

GPU 1x Nvidia T4

stablediffusionapi /

anything-v5

GPU 1x Nvidia L4

stable-diffusion-v1-5 /

stable-diffusion-v1-5

GPU 1x Nvidia T4

stable-diffusion-xl-base-1.0

Deployed 154 times

GPU 1x Nvidia L4

openjourney

GPU 1x Nvidia L4

animagine-xl-2.0

GPU 1x Nvidia L4

black-forest-labs /

FLUX.1-schnell

Deployed 204 times

GPU 1x Nvidia L40S

gte-large

Sentence Embeddings

Accelerated Text Embeddings Inference

CPU 4x Intel Sapphire Rapids

sentence-transformers /

paraphrase-multilingual-MiniLM-L12-v2

Sentence Embeddings

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

sentence-transformers /

all-mpnet-base-v2

Sentence Embeddings

Accelerated Text Embeddings Inference

CPU 2x Intel Sapphire Rapids

sentence-transformers /

all-MiniLM-L6-v2

Deployed 412 times

Sentence Embeddings

Accelerated Text Embeddings Inference

CPU 1x Intel Sapphire Rapids

mixedbread-ai /

mxbai-embed-large-v1

Sentence Embeddings

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

multilingual-e5-large-instruct

Sentence Embeddings

Accelerated Text Embeddings Inference

GPU 1x Nvidia T4

multilingual-e5-large

Sentence Embeddings

Accelerated Text Embeddings Inference

GPU 1x Nvidia T4

gte-Qwen2-7B-instruct-Q4_K_M-GGUF

Sentence Embeddings

Accelerated llama.cpp

CPU 8x Intel Sapphire Rapids

bge-large-en-v1.5

Sentence Embeddings

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

bge-base-en-v1.5

Sentence Embeddings

Accelerated Text Embeddings Inference

CPU 4x Intel Sapphire Rapids

Qwen2.5-VL-7B-Instruct

Deployed 290 times

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia A100

paligemma2-10b-mix-448

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

paligemma2-10b-mix-224

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

paligemma2-3b-mix-448

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L4

gemma-3-12b-it

Deployed 257 times

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia L40S

gemma-3-27b-it

Deployed 303 times

Image-Text-to-Text

Accelerated vLLM

GPU 1x Nvidia A100

whisper-large-v3-turbo

Deployed 230 times

Automatic Speech Recognition

GPU 1x Nvidia L4

whisper-large-v3

Deployed 228 times

Automatic Speech Recognition

GPU 1x Nvidia L4

Mistral-7B-Instruct-v0.3

Deployed 484 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen2.5-Coder-7B-Instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

phi-4

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Qwen2.5-7B-Instruct

Deployed 336 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

QwQ-32B-Preview-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L40S

Mistral-Small-24B-Instruct-2501

Text Generation

Accelerated vLLM

GPU 1x Nvidia RTX PRO 6000 Blackwell

Meta-Llama-3-8B-Instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

Llama-3.1-8B-Instruct

Deployed 543 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

Qwen2.5-Coder-32B-Instruct

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Phi-3-mini-128k-instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

QwQ-32B

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Llama-3.1-70B-Instruct

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Meta-Llama-3-70B-Instruct

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Phi-3-mini-4k-instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

HuggingFaceH4 /

zephyr-7b-beta

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Mistral-Nemo-Instruct-2407

Text Generation

Accelerated vLLM

GPU 1x Nvidia RTX PRO 6000 Blackwell

Qwen2.5-72B-Instruct

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

HuggingFaceTB /

SmolLM2-1.7B-Instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Mixtral-8x22B-Instruct-v0.1

Text Generation

Accelerated vLLM

GPU 4x Nvidia RTX PRO 6000 Blackwell

openchat-3.5-0106

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

DeepSeek-R1-Distill-Llama-70B

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Qwen2.5-Coder-32B-Instruct-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L4

Qwen2.5-14B-Instruct

Deployed 178 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia H200

Mixtral-8x7B-Instruct-v0.1

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

DeepSeek-R1-Distill-Qwen-32B

Deployed 162 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

lmstudio-community /

Llama-3.3-70B-Instruct-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia RTX PRO 6000 Blackwell

Llama-3.2-3B-Instruct

Deployed 155 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Llama-3.2-1B-Instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen2.5-Coder-14B-Instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

DeepSeek-R1-GGUF

Text Generation

Accelerated llama.cpp

GPU 2x Nvidia RTX PRO 6000 Blackwell