Claude Opus 4.6 et Sonnet 4.6 : la révolution du contexte 1 million de tokens
Anthropic vient de frapper un grand coup en ce début février 2026. En l'espace de douze jours, la société a lancé deux modèles qui redéfinissent les standards du marché : Claude Opus 4.6 le 5 février, suivi de Claude Sonnet 4.6 le 17 février. Au programme : une fenêtre de contexte d'un million de tokens, un nouveau mode de raisonnement baptisé Adaptive Thinking, et des performances qui écrasent la concurrence sur plusieurs benchmarks clés. Décryptage complet.
Ce qui change avec la famille Claude 4.6
La génération 4.6 marque une rupture avec les versions précédentes sur trois axes majeurs : la capacité de contexte, le mode de raisonnement et les performances brutes.
Opus 4.6, le modèle flagship, cible les cas d'usage complexes : recherche scientifique, analyse juridique, audit de code à grande échelle. Avec 128K tokens en sortie (le double d'Opus 4.5), il peut produire des réponses détaillées sans troncature.
Sonnet 4.6, devenu le modèle par défaut des plans Free et Pro de Claude, offre un rapport qualité/prix remarquable. Il atteint des scores quasi identiques à Opus sur le coding (79.6% vs 80.8% sur SWE-Bench) pour un prix cinq fois inférieur.
| Caractéristique | Opus 4.6 | Sonnet 4.6 |
|----------------|----------|------------|
| Date de sortie | 5 février 2026 | 17 février 2026 |
| Contexte standard | 200K tokens | 200K tokens |
| Contexte étendu (beta) | 1M tokens | 1M tokens |
| Tokens en sortie max | 128K | 64K |
| Prix input (standard) | $5/MTok | $3/MTok |
| Prix output (standard) | $25/MTok | $15/MTok |
| SWE-Bench Verified | 80.8% | 79.6% |
| MMLU | 91% | ~88% |
| GSM8K (maths) | 96% | ~93% |
1 million de tokens : qu'est-ce que ça change concrètement ?
Un million de tokens, c'est environ 750 000 mots. Pour donner un ordre de grandeur, cela représente l'intégralité de la trilogie du Seigneur des Anneaux, ou encore la totalité du code source d'un projet de taille moyenne avec sa documentation.
Les cas d'usage qui deviennent possibles
Analyse de codebase complète. Charger l'intégralité d'un projet (code source, tests, documentation, fichiers de configuration) dans une seule requête. Plus besoin de découper le contexte en morceaux et de perdre les relations entre fichiers.
Traitement de documents juridiques. Un contrat d'entreprise complexe avec ses annexes peut atteindre 200 à 300 pages. Avec 1M de tokens, on peut analyser le document entier en une passe, sans risquer de manquer une clause contradictoire enfouie à la page 247.
Many-shot learning. Au lieu de fournir 3 à 5 exemples dans un prompt, on peut en fournir des centaines. Les tests montrent que cette approche atteint des performances comparables au fine-tuning, sans l'investissement associé.
Conversations longues durée. Les assistants IA peuvent maintenir un contexte cohérent sur des sessions de travail étendues sans "oublier" les échanges précédents.
Performance réelle sur le contexte long
Anthropic publie ses résultats sur le benchmark MRCR v2 (Multi-Round Coreference Resolution), qui évalue la capacité d'un modèle à retrouver des informations précises dans un long contexte :
- 256K tokens : 93% de précision (Opus 4.6)
- 1M tokens (8 aiguilles) : 76% de précision (Opus 4.6)
- A titre de comparaison, Sonnet 4.5 ne scorait que 18.5% sur le même test à 1M tokens
Le gain est massif. Là où la génération précédente perdait pied au-delà de 200K tokens, Opus 4.6 maintient un niveau de fiabilité exploitable même sur des contextes géants.
La question du coût
Le contexte étendu a un prix. Au-delà de 200K tokens, la tarification double :
| Modèle | Input ≤200K | Input >200K | Output ≤200K | Output >200K |
|--------|------------|------------|-------------|-------------|
| Opus 4.6 | $5/MTok | $10/MTok | $25/MTok | $37.50/MTok |
| Sonnet 4.6 | $3/MTok | $6/MTok | $15/MTok | $22.50/MTok |
Pour une requête à 1M tokens en input avec Opus 4.6, comptez environ $10. C'est significatif, mais pour des cas comme l'audit d'un codebase complet ou l'analyse d'un dossier juridique, le ROI est immédiat par rapport au temps humain économisé.
Le batch processing offre une réduction de 50%, ce qui ramène le coût à $5 pour la même requête, à condition d'accepter un délai de traitement.
Adaptive Thinking : Claude décide quand réfléchir
C'est peut-être l'innovation la plus significative de cette génération. L'Adaptive Thinking remplace le mode "extended thinking" manuel des versions précédentes.
Le problème résolu
Avec les modèles précédents, le développeur devait explicitement configurer un budget de tokens pour le raisonnement étendu via le paramètre budget_tokens. Trop bas, le modèle bâclait les problèmes complexes. Trop haut, on gaspillait des tokens sur des questions simples.
Comment ça fonctionne
Avec l'Adaptive Thinking, Claude évalue automatiquement la complexité de chaque requête et ajuste son effort de raisonnement en conséquence. Une question factuelle simple consomme peu de tokens de raisonnement. Un problème d'architecture logicielle déclenche une réflexion approfondie.
Le développeur peut influencer ce comportement via un paramètre effort :
| Niveau | Comportement | Usage recommandé |
|--------|-------------|-----------------|
| low | Raisonnement minimal, saute les questions simples | Applications temps réel, chatbots |
| medium | Raisonnement modéré | Usage courant avec Sonnet 4.6 |
| high (défaut) | Réfléchit toujours en profondeur | Tâches complexes |
| max | Raisonnement illimité (Opus uniquement) | Problèmes de recherche, maths avancées |
Implémentation
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"},
messages=[{"role": "user", "content": "Analyse cette architecture..."}],
)
A noter : l'ancien paramètre thinking: {type: "enabled", budget_tokens: N} est désormais déprécié. Il fonctionne encore, mais Anthropic recommande de migrer vers l'Adaptive Thinking.
Interleaved Thinking : réfléchir entre les appels d'outils
L'Adaptive Thinking active automatiquement l'interleaved thinking : Claude réfléchit entre chaque appel d'outil dans un workflow agentique. Plus besoin du header beta interleaved-thinking-2025-05-14. Concrètement, quand un agent Claude exécute une séquence recherche → analyse → action, il reconsidère sa stratégie à chaque étape au lieu de suivre un plan rigide.
Benchmarks : où se situe Claude 4.6 face à la concurrence ?
Février 2026 a vu la sortie quasi simultanée de Claude Opus 4.6, GPT-5.3-Codex (OpenAI) et Gemini 3.1 Pro (Google). Voici comment ils se comparent :
Coding et ingénierie logicielle
| Benchmark | Sonnet 4.6 | Opus 4.6 | GPT-5.3-Codex | Gemini 3.1 Pro |
|-----------|-----------|----------|---------------|----------------|
| SWE-Bench Verified | 79.6% | 80.8% | ~77% | ~75% |
| LiveCodeBench | 72.4% | ~75% | Variable | Avantage contexte |
| OSWorld (computer use) | 72.5% | ~75% | 38.2% | ~55% |
Sonnet 4.6 domine le coding à son niveau de prix. Le fait qu'il rivalise avec Opus sur SWE-Bench (79.6% vs 80.8%) en fait le meilleur rapport qualité/prix du marché pour les développeurs.
Raisonnement et connaissances
| Benchmark | Opus 4.6 | GPT-5.3 | Gemini 3.1 Pro |
|-----------|----------|---------|----------------|
| MMLU | 91% | ~89% | ~90% |
| GSM8K (maths) | 96% | ~95% | ~94% |
| GDPval-AA (Elo) | ~1,633 | 1,489 | 1,317 |
| Humanity's Last Exam | Leader | - | - |
Opus 4.6 surpasse GPT-5.2 de 144 points Elo sur le benchmark GDPval-AA, qui mesure la performance sur des tâches de connaissance à valeur économique.
Computer Use : la progression fulgurante
Le score de Sonnet sur OSWorld (simulation d'usage desktop) illustre une trajectoire impressionnante en 16 mois :
- Sonnet 3.5 : 14.9%
- Sonnet 3.5 v2 : 28.0%
- Sonnet 3.6 : 42.2%
- Sonnet 4.5 : 61.4%
- Sonnet 4.6 : 72.5%
Une multiplication par 5. L'automatisation de workflows desktop (remplir des formulaires, naviguer dans des interfaces legacy, exécuter des tâches multi-étapes) devient fiable en production. Anthropic rapporte une précision de 94% sur un benchmark d'automatisation d'assurance.
Les nouvelles fonctionnalités à connaître
Code Execution gratuit avec les outils web
L'exécution de code est désormais gratuite lorsqu'elle est combinée avec les outils web search ou web fetch. Claude peut rechercher une information sur le web, écrire un script pour la traiter, et retourner le résultat, le tout sans frais supplémentaires d'exécution.
Compaction API : des conversations infinies
La nouvelle Compaction API (beta) résout le problème des conversations qui atteignent la limite de contexte. Le serveur résume automatiquement les échanges précédents, permettant des conversations théoriquement infinies sans perte de cohérence.
Fast Mode : 2.5x plus rapide
Un mode d'inférence rapide est disponible en preview. Il utilise le même modèle avec une génération 2.5x plus rapide, moyennant un surcoût de 6x ($30/MTok input, $150/MTok output). Adapté aux applications interactives où la latence est critique.
Prompt Caching avec Adaptive Thinking
Le caching fonctionne avec l'Adaptive Thinking. Les requêtes consécutives préservent les breakpoints de cache. Les lectures de cache coûtent 0.1x le prix de base, soit des économies significatives sur les prompts répétitifs.
Ce qu'il faut retenir pour votre stack
Si vous utilisez déjà Claude en production :
- Migrez vers l'Adaptive Thinking (le budget_tokens est déprécié)
- Sonnet 4.6 remplace avantageusement Opus 4.5 pour le coding, à un cinquième du prix
- Le contexte 1M est en beta : testez-le sur vos cas d'usage avant de l'adopter en production
Si vous évaluez les modèles pour un nouveau projet :
- Pour le coding et les agents : Sonnet 4.6 offre le meilleur rapport performance/prix du marché
- Pour la recherche et l'analyse documentaire : Opus 4.6 avec le contexte 1M est sans équivalent
- Pour le budget serré : le batch processing à -50% rend même Opus accessible
Si vous développez des agents IA :
- L'interleaved thinking change la donne pour les workflows multi-étapes
- Le computer use à 72.5% de précision ouvre des cas d'usage d'automatisation réels
- La Compaction API permet des agents longue durée sans perte de mémoire
La famille Claude 4.6 ne se contente pas d'itérer sur les performances. Avec l'Adaptive Thinking, le contexte à 1 million de tokens et les améliorations du computer use, Anthropic pose les fondations d'une nouvelle génération d'applications IA. La question n'est plus de savoir si ces modèles sont assez bons pour la production, mais comment restructurer vos workflows pour exploiter pleinement leur potentiel.