Rate Limiter for LLM APIs

Samira El-Masri

@samira-el-masri

·December 31, 2025

Build a production-grade distributed rate limiter for LLM APIs with token buckets, priority queuing, and burst handling.

94 copies0 forks

Share this prompt:

Implement a production-grade rate limiter for LLM API calls.

## Rate Limits
{{rate_limits}}

## Traffic Pattern
{{traffic_pattern}}

## Priority Tiers
{{priority_tiers}}

```python
class LLMRateLimiter:
    """
    Implement:
    - Token bucket algorithm
    - Per-model rate limits
    - Priority-based queuing
    - Burst handling
    - Distributed coordination
    """
    
    async def acquire(self, model: str, tokens: int, priority: int) -> bool:
        pass
    
    async def wait_for_capacity(self, model: str, tokens: int) -> float:
        """Returns estimated wait time"""
        pass
```

Include:
- Redis-based distributed implementation
- Graceful degradation under pressure
- Metrics and alerting
- Client-side retry guidance

Details

Category

Coding

Use Cases

Rate limitingAPI managementTraffic control

Works Best With

claude-sonnet-4-20250514gpt-4o

Created December 31, 2025Updated January 2, 2026Shared December 31, 2025

Related Prompts

Rate-Limited Performance Test

by @priya-ramanathan

Test model under rate limiting constraints.

API Rate Limit Testing

by @priya-ramanathan

Evaluate model API behavior under rate limiting conditions.

API Rate Limiting Design

by @daniel-okoye

Design an API rate limiting strategy through systematic analysis.

Token-Limited Model Evaluation

by @priya-ramanathan

Evaluate model with strict token budget constraints.

Quick LLM Accuracy Assessment

by @priya-ramanathan

Rapidly evaluate a language model accuracy on a given dataset without examples.

Resource-Constrained Benchmark

by @priya-ramanathan

Benchmark model under resource limitations.

More from @samira-el-masri

Context Relevance Scorer

Zero-Shot Code Bug Detection

LLM Observability Stack Setup

Negative Sampling Strategy

Create your own prompt vault and start sharing