Inference Catalog | Inference Endpoints by Hugging Face

Inference Endpoints

Catalog

Model Catalog

Inference Task

All Available Tasks Text Generation Text-to-Image Image-Text-to-Text Sentence Embeddings Sentence Similarity Sentence Ranking Automatic Speech Recognition Feature Extraction

Price $ 0 - 50 / hour

0
0.1
0.5
1
5
50

Inference Server

All Llama.cpp TEI TGI vLLM

Hardware Accelerator

ALL CPU GPU INF2

License

Hub Models

Browse All Models

61 items

Applied Filters

GPU Text Generation Clear All

DeepSeek-R1-Distill-Llama-70B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

DeepSeek-R1-Distill-Qwen-32B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

DeepSeek-R1-GGUF

Text Generation

Accelerated llama.cpp

GPU 4x Nvidia L40S

DeepSeek-R1-GGUF

Text Generation

Accelerated llama.cpp

GPU 8x Nvidia A100

granite-3.1-8b-base

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

granite-3.3-8b-instruct

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Llama-2-13b-chat-hf

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Llama-2-13b-hf

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Llama-2-70b-chat-hf

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

Llama-2-70b-hf

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

Llama-2-7b-chat-hf

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Llama-2-7b-hf

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Llama-3.1-70B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

Llama-3.1-70B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

Llama-3.1-8B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Llama-3.1-8B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Llama-3.2-1B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Llama-3.2-1B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Llama-3.2-3B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Llama-3.2-3B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

lmstudio-community /

Llama-3.3-70B-Instruct-GGUF

Text Generation

Accelerated llama.cpp

GPU 4x Nvidia L4

Meta-Llama-3-70B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia A100

Meta-Llama-3-70B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia A100

Meta-Llama-3-8B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Meta-Llama-3-8B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Mistral-7B-Instruct-v0.3

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Mistral-7B-v0.3

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Mistral-Nemo-Instruct-2407

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

Mistral-Small-24B-Instruct-2501

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

Mixtral-8x22B-Instruct-v0.1

Text Generation

Accelerated Text Generation Inference

GPU 8x Nvidia A100

Mixtral-8x7B-Instruct-v0.1

Text Generation

Accelerated Text Generation Inference

GPU 2x Nvidia A100

Mixtral-8x7B-v0.1

Text Generation

Accelerated Text Generation Inference

GPU 2x Nvidia A100

neural-chat-7b-v3-1

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

neural-chat-7b-v3-3

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

openchat-3.5-0106

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Phi-3-mini-128k-instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Phi-3-mini-4k-instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

phi-4

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Qwen2.5-14B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 2x Nvidia A100

Qwen2.5-14B-Instruct-1M

Text Generation

Accelerated Text Generation Inference

GPU 2x Nvidia A100

Qwen2.5-72B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia A100

Qwen2.5-7B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Qwen2.5-Coder-14B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Qwen2.5-Coder-32B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

Qwen2.5-Coder-32B-Instruct-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L4

Qwen2.5-Coder-7B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Qwen2.5-Math-72B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia A100

Qwen2.5-Math-7B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

Qwen3-1.7B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia T4

Qwen3-32B

Text Generation

Accelerated vLLM

GPU 4x Nvidia L4

QwQ-32B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

QwQ-32B-Preview-GGUF

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L40S

reka-flash-3

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

simplescaling /

s1.1-32B

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

HuggingFaceTB /

SmolLM2-1.7B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

HuggingFaceTB /

SmolLM2-1.7B-Instruct

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

berkeley-nest /

Starling-LM-7B-alpha

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4

Tessa-T1-32B

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia A100

TinyR1-32B-Preview

Text Generation

Accelerated Text Generation Inference

GPU 4x Nvidia L4

vicuna-7b-v1.5

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

HuggingFaceH4 /

zephyr-7b-beta

Text Generation

Accelerated Text Generation Inference

GPU 1x Nvidia L4