CDN de modelos de inteligência artificial otimizados para inferência local no browser via WebGPU.
Parte da arquitetura Local-First AI do Go On Mind.
Modelos quantizados em q4f16 (4-bit, float16 compute) via MLC-LLM para máxima eficiência em WebGPU.
/manifest.json
— Manifesto com lista de arquivos e hashes
/models/{model}/params_shard_{n}.bin
— Shards de parâmetros do modelo
/models/{model}/tokenizer.json
— Tokenizer do modelo
/models/{model}/mlc-chat-config.json
— Configuração MLC-LLM
/health
— Health check (retorna manifesto)