LLM

TOON : Réduire vos coûts LLM de 50% avec ce nouveau format de données

Jean-Michel Helem

05 déc. 2025 • 6 min read

Chaque accolade, chaque guillemet, chaque crochet que vous envoyez à un LLM vous coûte de l'argent. Avec des payloads JSON volumineux, ces caractères structurels peuvent représenter jusqu'à 40% de votre consommation de tokens. TOON (Token-Oriented Object Notation), publié sous licence MIT en novembre 2025, promet de réduire cette facture de 30 à 60% sans sacrifier la précision des réponses.

Le problème caché des tokens structurels

Quand vous construisez des applications IA, le coût le plus insidieux vient souvent du format de vos données. Prenons un exemple concret :

{
  "employees": [
    {"id": 1, "name": "Alice", "department": "Engineering", "salary": 85000},
    {"id": 2, "name": "Bob", "department": "Marketing", "salary": 72000},
    {"id": 3, "name": "Carol", "department": "Engineering", "salary": 91000}
  ]
}

Dans ce JSON de 3 employés, les accolades, crochets, guillemets et noms de champs répétés consomment plus de tokens que les données elles-mêmes. Multipliez par des milliers d'enregistrements dans un pipeline RAG ou un agent qui manipule des données structurées, et la facture explose.

Les APIs de LLM facturent au token. À 3$ par million de tokens en entrée pour GPT-4, un système traitant 100 000 requêtes par jour avec des payloads de 2000 tokens gaspille potentiellement 800$ par jour en overhead structurel.

TOON : l'USB-C des formats de données IA

TOON combine le meilleur de deux mondes : l'indentation de YAML pour les objets imbriqués et le format tabulaire de CSV pour les tableaux uniformes. Le résultat est un format compact, lisible par l'humain, et optimisé pour la tokenisation des LLM.

Le même exemple d'employés en TOON :

employees[3]{id,name,department,salary}:
  1,Alice,Engineering,85000
  2,Bob,Marketing,72000
  3,Carol,Engineering,91000

Les noms de champs n'apparaissent qu'une fois dans l'en-tête. Les accolades et guillemets disparaissent. Le nombre d'éléments est explicitement déclaré. Le LLM reçoit exactement la même information sémantique avec 40% de tokens en moins.

Anatomie du format TOON

Comparaison JSON vs TOON : réduction visuelle de la verbosité

Déclaration des tableaux

La syntaxe [N]{field1,field2,...} déclare un tableau de N éléments avec les champs spécifiés :

users[2]{username,email,active}:
  johndoe,john@example.com,true
  janedoe,jane@example.com,false

Cette déclaration explicite aide le LLM à valider la structure et anticiper le nombre d'éléments à parser.

Objets imbriqués

Pour les objets non tabulaires, TOON utilise l'indentation :

context:
  task: data_analysis
  priority: high
  settings:
    language: fr
    format: detailed

Pas de guillemets autour des valeurs simples, pas d'accolades de fermeture. L'indentation définit la hiérarchie.

Structures mixtes

Un document réel combine souvent les deux approches :

config:
  environment: production
  version: 2.1
logs[4]{timestamp,level,message}:
  2025-12-01T10:00:00Z,INFO,Service started
  2025-12-01T10:00:01Z,DEBUG,Loading configuration
  2025-12-01T10:00:02Z,INFO,Ready to accept connections
  2025-12-01T10:00:15Z,WARN,High memory usage detected

Benchmarks : les chiffres parlent

Pipeline de conversion TOON : optimisation du flux de tokens vers le LLM

Les benchmarks officiels, réalisés sur environ 160 questions de test avec différents modèles, montrent des résultats consistants.

Réduction de tokens

Comparé à JSON pretty-printed, TOON réduit la consommation de tokens de 55%. Contre JSON compact (minifié), la réduction reste de 25%. Face à YAML, TOON économise 38% de tokens.

Précision maintenue

Le point crucial : cette compression ne dégrade pas la qualité des réponses. Sur les mêmes datasets de test, TOON atteint 73.9% de précision contre 69.7% pour JSON. Sur GPT-5 Nano, TOON maintient 99.4% de précision avec 46% de tokens en moins.

L'explication est contre-intuitive : en déclarant explicitement la structure (nombre d'éléments, noms de champs), TOON aide le LLM à parser et valider les données plus efficacement. L'overhead de 5-10% pour les métadonnées structurelles est largement compensé par l'amélioration de la fiabilité.

Efficacité par token

L'indicateur le plus parlant est l'accuracy per 1K tokens. TOON affiche 26.9 contre 15.3 pour JSON. Autrement dit, chaque token TOON est presque deux fois plus "utile" qu'un token JSON.

Cas d'usage optimaux

Écosystème d'applications TOON : RAG, agents, analytics et APIs

TOON brille particulièrement dans certains scénarios.

Pipelines RAG avec données structurées

Quand votre système RAG récupère des enregistrements de base de données pour les injecter dans le contexte, TOON réduit drastiquement le coût par requête. Un pipeline traitant des fiches produits, des profils utilisateurs ou des logs bénéficie immédiatement de la conversion.

Agents manipulant des datasets

Les agents IA qui analysent des données tabulaires, comparent des enregistrements ou génèrent des rapports consomment des volumes importants de tokens. Convertir ces données en TOON avant injection dans le prompt peut diviser la facture par deux.

APIs avec payloads volumineux

Si votre application envoie régulièrement des listes d'objets aux LLM, chaque requête bénéficie de l'économie TOON. Sur des volumes importants, les économies se cumulent rapidement.

Analytics et time-series

Les données temporelles avec des structures répétitives sont idéales pour TOON. Logs, métriques, événements : tous ces formats tabulaires se compriment efficacement.

Quand éviter TOON

TOON n'est pas universellement optimal. Certains cas de figure favorisent d'autres formats.

Données profondément imbriquées

Pour des structures avec 4+ niveaux de nesting et des schémas variables, JSON reste plus efficace. L'overhead de déclaration TOON ne se justifie pas quand la structure n'est pas répétitive.

Données purement tabulaires

Si vos données sont parfaitement plates sans aucune imbrication, CSV reste le format le plus compact. TOON ajoute des métadonnées qui n'apportent rien dans ce cas.

Applications critiques en latence

TOON nécessite une étape d'encodage/décodage. Pour les applications où chaque milliseconde compte, benchmarkez le Time To First Token et le throughput avant d'adopter TOON en production.

Implémentation pratique

Installation

TOON dispose d'implémentations officielles en TypeScript et Python :

# TypeScript/JavaScript
npm install @toon-format/toon

Conversion JSON vers TOON

En TypeScript :

import { encode, decode } from '@toon-format/toon';

const jsonData = {
  products: [
    { id: 1, name: "Widget", price: 29.99 },
    { id: 2, name: "Gadget", price: 49.99 }
  ]
};

// Conversion vers TOON
const toonString = encode(jsonData);
console.log(toonString);
// products[2]{id,name,price}:
//   1,Widget,29.99
//   2,Gadget,49.99

En Python :

from toon import encode, decode

json_data = {
    "products": [
        {"id": 1, "name": "Widget", "price": 29.99},
        {"id": 2, "name": "Gadget", "price": 49.99}
    ]
}

# Conversion vers TOON
toon_string = encode(json_data)
print(toon_string)

La conversion est bidirectionnelle et sans perte. Vous pouvez encoder en TOON pour l'envoi au LLM et décoder la réponse pour la traiter en JSON standard.

Intégration dans un pipeline LLM

L'approche recommandée est d'utiliser TOON comme couche de transport :

import openai
from toon import encode

def query_with_toon(data, question):
    toon_context = encode(data)

response = openai.chat.completions.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "Data is provided in TOON format."},
            {"role": "user", "content": f"Context:\n{toon_context}\n\nQuestion: {question}"}
        ]
    )
    return response.choices[0].message.content

Calculer vos économies potentielles

Pour estimer l'impact sur votre cas d'usage, considérez :

1. Volume de données structurées : Quelle proportion de vos prompts est constituée de données JSON ?
2. Uniformité des structures : Vos tableaux contiennent-ils des objets de même schéma ?
3. Fréquence des requêtes : Combien de requêtes par jour incluent ces données ?

Formule approximative :

Économies mensuelles = Tokens_JSON × 0.4 × Coût_par_token × Requêtes_mensuelles

Pour une application traitant 10 000 requêtes/jour avec 1500 tokens de données JSON à 3$/million :

Économies = 1500 × 0.4 × 0.000003 × 300000 = 540$/mois

L'avenir de TOON

TOON 1.0 vient d'être publié, mais l'écosystème se développe rapidement. Des implémentations communautaires émergent en Go, Rust et .NET. Un playground en ligne permet de tester la conversion et mesurer les économies de tokens.

La communauté discute déjà de potentielles standardisations. Tout comme JSON est devenu le standard des échanges web, TOON pourrait s'imposer comme le format de référence pour les données LLM.

Les prochaines versions devraient apporter :
- Support natif dans les SDKs des principaux fournisseurs LLM
- Optimisations spécifiques par modèle
- Outils de profiling pour identifier les candidats à la conversion

Conclusion

TOON représente une optimisation pragmatique pour quiconque travaille avec des LLM et des données structurées. Sans modifier votre code applicatif ni changer de modèle, une simple couche de conversion peut réduire votre facture de 30 à 60%.

Le format n'est pas une révolution architecturale, mais une évolution logique. À mesure que les coûts LLM deviennent un facteur critique de viabilité économique, chaque optimisation compte. TOON offre un gain immédiat, mesurable, et sans compromis sur la qualité.

Pour les équipes qui traitent des volumes importants de données structurées via des LLM, le retour sur investissement de l'adoption de TOON se mesure en jours, pas en mois. Le format est open-source, les SDKs sont matures, et les benchmarks sont publics. Il ne reste qu'à tester sur vos propres données.