À propos — Ailiance

La flotte LLM Ailiance software est fine-tunée sur Apple Silicon (Mac Studio M3 Ultra, 512 Go de mémoire unifiée) avec MLX. Nous distillons les traces de raisonnement de Claude Opus dans des modèles open-source, et publions des adaptateurs traçables sous Apache-2.0 ou autres licences adaptées au modèle de base.

Stack technique

Entraînement — MLX bf16 LoRA sur Mistral-Medium 128B, Qwen3.6-35B, Devstral-Small-2-24B, EuroLLM 22B, Qwen3-Coder-Next
Routage — embeddings multilingual-e5-large 1024d (souverain, GPU de la gateway sur Tower) + classifier MLP 2 couches (hidden 256, 47 domaines, routeur v9.2, val top-1 0,923) avec cache deux niveaux (L1 hash + L2 sémantique). Les 16 domaines code routent vers Qwen3-Coder-Next 80B (A/B : 91 % vs 64 % pass@1 sur 22 tâches exec-vérifiées).
Orchestration — router v9 Deliberation chain : auto-engagé sur model: "ailiance" pour les domaines hardware / code, fait passer la sortie LLM dans un validator iact-bench sandboxé, retry avec feedback stderr en cas d'échec, émet NDJSON audit par chaîne
Serving — vllm-mlx (fork souverain ailiance/vllm-mlx) multi-modèle sur Mac Studio (port 8500, ~30 modèles) + deux instances qwen36-35B multi-LoRA (:9360/:9361) + hot-path function-calling granite sur macM1 (:8520) + nœud GPU kxkm-ai (RTX 4090, SchGen/vision), derrière la gateway FastAPI sur Tower (:9300, 45 alias)
Évaluation — Lighteval + EvalPlus + MT-Bench + iact-bench v1 (31 domaines × ≤23 modèles, ~46 validators sur 3 backends : sandbox Docker, kicad-mcp-pro, KiKit)

Backend portable

La gateway ailiance et la stack workers ne sont pas liées à Apple Silicon. Notre déploiement de référence tourne sur Mac Studio M3 Ultra (MLX) et macOS via MLX-LM et llama.cpp, mais le même contrat HTTP OpenAI-compatible peut être servi depuis n'importe quel runtime exposant /v1/chat/completions.

plateforme

Apple Silicon (arm64)

MLX / MLX-LM (référence), llama.cpp Metal

plateforme

NVIDIA CUDA (x86_64 / arm64)

vLLM, TGI, llama.cpp CUDA, Ollama

plateforme

AMD ROCm (x86_64)

vLLM ROCm, llama.cpp HIP

plateforme

Intel / x86_64 générique

llama.cpp CPU/AVX2/AVX-512, OpenVINO

plateforme

ARM CPU (Linux arm64, Graviton, Ampere)

llama.cpp NEON

plateforme

Pure Python anywhere

FastAPI gateway + router (Python 3.12+)

Sister projects

ailiance — la gateway LLM elle-même (workers, router v9, dossier EU AI Act).
ailiance-agent — agent de code (CLI aki + extension VS Code) qui pointe sur cette gateway par défaut.
ailiance-bench — le harnais d'évaluation audit-grade utilisé pour scorer chaque modèle servi.

Organisation des responsabilités

Trois pôles de responsabilité, séparés au sein de l'équipe Ailiance software pour permettre la traçabilité et la séparation des contrôles attendues par l'Article 17 IA Act (Quality Management System) :

Équipe Data — collecte, curation, audit qualité/biais/représentativité des corpus, exécution iact-bench, gestion des datasets HuggingFace Ailiance-fr/. Responsable du bloc 3 et 5 de la démarche qualité.
Conformité & Sécurité — veille réglementaire (AI Act, RGPD, CRA), tenue du registre d'incidents ([email protected]), audit interne semestriel, publication des post-mortems. Responsable du bloc 6 de la démarche qualité et du dossier Annex IV.
Direction technique — architecture gateway / routeur / validators, arbitrage des releases, signature des commits de provenance, validation finale des critères de release. Responsable du bloc 4 et de la chaîne de signature.

Contact direction : [email protected]

Licence

Apache-2.0, sur l'ensemble du code et des adaptateurs.

Pourquoi cette flotte.

Stack technique

Backend portable

Sister projects

Organisation des responsabilités

Licence