LIVE
modèles3/3 up
gatewayOK
p508.0s
p958.0s
txeu-fr · electron-server
№ 06 · Ailiance software

Pourquoi cette flotte.

La flotte LLM Ailiance software est fine-tunée sur Apple Silicon (Mac Studio M3 Ultra, 512 Go de mémoire unifiée) avec MLX. Nous distillons les traces de raisonnement de Claude Opus dans des modèles open-source, et publions des adaptateurs traçables sous Apache-2.0 ou autres licences adaptées au modèle de base.

Stack technique

  • Entraînement — MLX bf16 LoRA sur Mistral-Medium 128B, Qwen3.6-35B, Devstral-Small-2-24B, EuroLLM 22B, gemma-4-E4B
  • Routage — embeddings MiniLM-L6-v2 384d + classifier MLP 2 couches (hidden 256, 47 domaines, macro-F1 0,889) avec cache deux niveaux (L1 hash + L2 sémantique). Jina v3 a été évalué puis écarté au bench (top-1 inférieur, encodage plus lent).
  • Orchestrationrouter v9 Deliberation chain : auto-engagé sur model: "ailiance" pour les domaines hardware / code, fait passer la sortie LLM dans un validator iact-bench sandboxé, retry avec feedback stderr en cas d'échec, émet NDJSON audit par chaîne
  • Serving — serveur omlx multi-modèle consolidé sur Mac Studio (port 8500) + deux instances qwen36-35B multi-LoRA, derrière la gateway FastAPI
  • Évaluation — Lighteval + EvalPlus + MT-Bench + iact-bench v1 (31 domaines × ≤23 modèles, ~46 validators sur 3 backends : sandbox Docker, kicad-mcp-pro, KiKit)

Backend portable

La gateway ailiance et la stack workers ne sont pas liées à Apple Silicon. Notre déploiement de référence tourne sur Mac Studio M3 Ultra (MLX) et macOS via MLX-LM et llama.cpp, mais le même contrat HTTP OpenAI-compatible peut être servi depuis n'importe quel runtime exposant /v1/chat/completions.

plateforme
Apple Silicon (arm64)
MLX / MLX-LM (référence), llama.cpp Metal
plateforme
NVIDIA CUDA (x86_64 / arm64)
vLLM, TGI, llama.cpp CUDA, Ollama
plateforme
AMD ROCm (x86_64)
vLLM ROCm, llama.cpp HIP
plateforme
Intel / x86_64 générique
llama.cpp CPU/AVX2/AVX-512, OpenVINO
plateforme
ARM CPU (Linux arm64, Graviton, Ampere)
llama.cpp NEON
plateforme
Pure Python anywhere
FastAPI gateway + router (Python 3.12+)

Sister projects

  • ailiance — la gateway LLM elle-même (workers, router v9, dossier EU AI Act).
  • ailiance-agent — agent de code (CLI aki + extension VS Code) qui pointe sur cette gateway par défaut.
  • ailiance-bench — le harnais d'évaluation audit-grade utilisé pour scorer chaque modèle servi.

Organisation des responsabilités

Trois pôles de responsabilité, séparés au sein de l'équipe Ailiance software pour permettre la traçabilité et la séparation des contrôles attendues par l'Article 17 IA Act (Quality Management System) :

  • Équipe Data — collecte, curation, audit qualité/biais/représentativité des corpus, exécution iact-bench, gestion des datasets HuggingFace Ailiance-fr/. Responsable du bloc 3 et 5 de la démarche qualité.
  • Conformité & Sécurité — veille réglementaire (AI Act, RGPD, CRA), tenue du registre d'incidents ([email protected]), audit interne semestriel, publication des post-mortems. Responsable du bloc 6 de la démarche qualité et du dossier Annex IV.
  • Direction technique — architecture gateway / routeur / validators, arbitrage des releases, signature des commits de provenance, validation finale des critères de release. Responsable du bloc 4 et de la chaîne de signature.

Contact direction : [email protected]

Licence

Apache-2.0, sur l'ensemble du code et des adaptateurs.