Stratégies de trading·ml

Le machine learning dans le HFT

encore alpha
Revu le 4 juin 2026. En 2026 : un vrai avantage existe encore pour qui sait bien l'exploiter.

Pas une cinquième famille de stratégie mais une boîte à outils transverse à toutes. Un vrai gain sur les problèmes riches en features et en échantillons (signaux de microstructure, NLP d'actualités) et survendu partout ailleurs.

Voir en mouvement

Un plus gros modèle gagne-t-il ?faites glisser la complexitéIX-AI
Précision in-sample75%
Précision out-of-sample63%
Latence d'inférence4.3 µs
Verdictavantage exploitable
50% – aucun avantagezone de surapprentissagemodèle simplemodèle complexe →– – in-sample · out-of-sample
Déséquilibre d'ordresOFIMicropriceSens de transactionPente de profondeurSpread
Complexité du modèlemodéré

À remarquer. Le ML en HFT est de la prédiction à court horizon sur des features de microstructure – et plus de modèle n'est pas plus d'avantage. Montez la complexité : la précision in-sample monte sans cesse tandis que l'out-of-sample culmine tôt puis décroît (le piège biais-variance), et la latence d'inférence grimpe jusqu'à ce que le modèle soit trop lent pour trader sur le chemin critique. L'avantage de 2026 est un modèle bien ajusté et rapide – et les mêmes modèles alimentent désormais la surveillance qui attrape le spoofing et le quote stuffing.

Que fait vraiment le machine learning dans le HFT ?

Dans le HFT, le machine learning s'applique surtout à trois tâches : prédire le prochain mouvement de prix à court horizon à partir de l'état du carnet, classifier le flux d'ordres et les transactions (inférence du sens, toxicité), et détecter anomalies et manipulations. Il apprend des motifs à partir de features de microstructure difficiles à spécifier à la main ; il ne « trouve pas d'alpha » de façon autonome, et tourne rarement à l'intérieur de la décision de trading à la microseconde elle-même.

L'intuition d'abord. Le carnet d'ordres est un objet riche, bruité, qui change vite. Une part de sa structure (comment le déséquilibre précède le prochain tic, comment le flux se regroupe avant un mouvement) est prévisible mais laborieusement non linéaire. Le ML est bon précisément à cela : apprendre une correspondance brouillonne de nombreuses features faibles vers une cible à court horizon là où coder la règle à la main est impraticable. C'est un approximateur de fonctions sur la microstructure, pas un oracle.

Il vaut la peine de le dire clairement d'emblée : le ML est une boîte à outils, pas une cinquième famille de stratégie aux côtés de la tenue de marché, de l'arbitrage, du directionnel et de l'événementiel. C'est une façon de construire les signaux et classifieurs sur lesquels ces stratégies reposent. Les domaines d'application honnêtes sont les trois ci-dessus, plus un quatrième qui siège hors de la boucle de trading entièrement : la recherche et les actualités, où les grands modèles de langage sont désormais réels. La posture de marque partout : nous vendons de la compréhension, jamais une boîte noire avec une promesse de P&L. Les gains réalistes sont des améliorations incrémentales de signaux que vous pourriez partiellement construire à la main, pas un saut quantique. Pour le regard plus large voir ce que l'IA change pour le HFT.

Prédiction de prix à court horizon

L'application phare est de prédire le prochain mouvement sur des micro-horizons (du prochain tic aux quelques prochaines secondes) à partir de l'état courant et récent du carnet. Des modèles allant de la régression logistique et des arbres boostés par gradient jusqu'aux LSTM, CNN et transformeurs de carnet d'ordres mappent des features de microstructure vers un signe ou un petit rendement ; le signal alimente ensuite une règle de trading simple et rapide, pas le modèle lui-même.

La cible est en général le signe ou l'amplitude du prochain mouvement du mid, ou le sens de la prochaine transaction, sur des horizons d'un événement à quelques secondes. Plus l'horizon est proche du « prochain événement », plus il recoupe les signaux classiques de microstructure (le microprice et le déséquilibre du flux d'ordres) et plus la valeur marginale d'un modèle profond sur un modèle linéaire bien construit rétrécit. Un constat courant et dégrisant : un modèle linéaire ou logistique soigné sur de bonnes features (OFI, déséquilibre, écart de microprice) capte l'essentiel de ce que fait un modèle profond à ces horizons. Les gains de l'apprentissage profond sont réels mais souvent marginaux, et payés par un risque de surajustement et une latence bien plus grands.

Là où l'apprentissage profond a montré de la valeur (la lignée DeepLOB, Zhang–Zohren–Roberts 2019, et ses successeurs) il extrait une structure spatiale et temporelle à travers les niveaux du carnet que les features manuelles manquent, mais il tourne hors du chemin critique et est notoirement sensible au régime et à la fuite.
y^t+h=fθ(booktk:t),accuracy(fdeep)accuracy(flinear)+ε,    ε  small\hat{y}_{t+h} = f_\theta(\text{book}_{t-k:t}), \qquad \text{accuracy}(f_{\text{deep}}) \approx \text{accuracy}(f_{\text{linear}}) + \varepsilon, \;\; \varepsilon \;\text{small}

Ce travail de prédiction s'enchaîne dans le guide du flux d'ordres et de l'information, l'information du flux d'ordres. Le ML est une façon d'estimer les mêmes espérances conditionnelles sur lesquelles ce guide est bâti, pas une source d'avantage séparée.

Classification du flux d'ordres et des transactions

Le ML affine les problèmes de classification dont dépend la microstructure : inférer si une transaction était initiée à l'achat ou à la vente (au-delà de la règle du tick et de Lee–Ready 1991), classifier le type de flux d'ordres, et étiqueter le flux comme informé ou non informé. Une meilleure classification alimente chaque signal en aval (OFI, VPIN, le lambda de Kyle), donc l'améliorer a un effet de levier sur toute la pile.

L'inférence du sens des transactions est le cas canonique. Les classifieurs à base de règles (la règle du tick, Lee–Ready 1991) sont bons mais imparfaits, et chaque signal de flux signé hérite de leur erreur. Des classifieurs ML utilisant le contexte local du carnet et des transactions peuvent réduire cette erreur dans les régimes difficiles (beaucoup d'impressions au mid), un petit gain de précision qui se propage en OFI et VPIN plus fiables. L'étiquetage informé-versus-non-informé recoupe largement le travail sur la toxicité ci-dessous ; distinguer le flux toxique (informé) du bénin (bruit) est le problème central du teneur de marché (sélection adverse). La mise en garde honnête : l'étiquette « ce flux était-il informé ? » n'est observable qu'ex post, ce qui fait fuir de l'information future dans l'entraînement supervisé sauf si c'est géré avec soin.

La classification est un meilleur terrain pour le ML que la prédiction brute de rendement : la cible (le signe d'une transaction imprimée) est plus propre et bien plus abondante qu'une cible de rendement, qui est presque entièrement du bruit aux horizons HFT. Le ML tend à ajouter une valeur plus fiable sur les tâches de classification.
SNR(trade sign)    SNR(micro-horizon return)\text{SNR}\big(\text{trade sign}\big) \;\gg\; \text{SNR}\big(\text{micro-horizon return}\big)

Toxicité, manipulation et détection d'anomalies

Le ML est bien adapté aux problèmes de détection : signaler le flux toxique (risque de sélection adverse) et repérer les motifs de manipulation (spoofing, layering, quote stuffing) et les anomalies dans la bande. Ce sont des applications de reconnaissance et de surveillance : protéger le teneur de marché, ou soutenir la conformité et la surveillance des places, jamais la manipulation opérationnelle.

La détection de toxicité prolonge des idées de type VPIN (Easley–López de Prado–O'Hara) : un modèle ML sur des features de flux d'ordres et de carnet en buckets peut donner à un teneur de marché un signal « le flux devient toxique, élargir ou se retirer » plus précoce et plus riche qu'une seule jauge (PIN et VPIN). C'est du ML défensif : réduire la sélection adverse, pas prédire la direction. La détection de manipulation et d'anomalies est de reconnaissance seulement : des classifieurs et détecteurs d'anomalies ML signalent les signatures du spoofing, du layering et du quote stuffing pour la surveillance et la conformité. C'est le côté licite et défensif des guides de manipulation : comment les motifs sont attrapés, jamais comment les pratiquer (spoofing et layering, manipulation de marché).

Le piège de la fuite revient ici sous sa forme la plus aiguë. Les étiquettes de détection sont souvent assignées avec le recul (un événement plus tard jugé manipulateur) si bien que les données d'entraînement encodent discrètement le futur. Les systèmes de détection honnêtes sont validés hors-période et hors-échantillon pour exactement cette raison, la même discipline qu'enseigne le guide backtesting et simulation.

Les features issues de la microstructure

Le ML en HFT vit ou meurt sur ses features, et les bonnes viennent de la microstructure : déséquilibre du flux d'ordres, déséquilibre du carnet et microprice, position de file et profondeur, signes et durées de transactions, et volatilité réalisée récente. Elles encodent la structure prédictive à court horizon ; le modèle est souvent la partie facile une fois les features bonnes.

Le jeu de features canonique : déséquilibre du flux d'ordres (OFI), le plus fort prédicteur isolé à court horizon ; déséquilibre du carnet et microprice, une juste valeur pondérée par le déséquilibre prédictive du prochain mouvement ; état de la file, profondeur et votre position, gouvernant la probabilité d'exécution ; durées et features en temps d'événement (regroupement et intensité, Engle–Russell ACD 1998) ; et flux de transactions signé avec volatilité réalisée, alimentant les features de toxicité et de régime.

Deux pièges structurels de features à nommer. Stationnarité : les features de microstructure dérivent avec le régime, le régime de pas de cotation et les règles de place, si bien qu'un modèle entraîné sur un régime se dégrade. Fuite : une feature calculée avec ne serait-ce qu'une microseconde d'information future fabrique une fausse compétence, et le timing nanoseconde et irrégulier rend cela facile à rater.
xt=ϕ(info available strictly before t),any peek at t+    leakagex_t = \phi\big(\text{info available strictly before } t\big), \qquad \text{any peek at } t^{+} \;\Rightarrow\; \text{leakage}

Pourquoi l'apprentissage profond est dur aux latences HFT

Il y a un arbitrage latence-versus-complexité : la décision de trading sur le chemin critique doit s'exécuter en un temps de la sous-microseconde à la microseconde, et l'inférence d'un réseau profond est bien trop lente pour siéger là. L'architecture standard garde donc le ML hors du chemin critique : les modèles calculent les signaux près-de-ligne ou hors-ligne, et une petite règle rapide et déterministe (souvent sur un FPGA) agit dessus. Complexité et vitesse sont délibérément découplées.

Dit clairement : précision et latence d'inférence s'arbitrent, et le chemin critique a un budget mesuré en microsecondes, souvent à un chiffre et borné par le FPGA. La passe avant d'un modèle profond est de plusieurs ordres de grandeur trop lente pour tourner dedans ; vous ne pouvez pas avoir à la fois complexité maximale du modèle et latence minimale sur le même chemin de code.

La résolution est une architecture scindée : des modèles riches calculent les signaux sur des échelles de temps lentes (de la milliseconde au jour suivant) ; une fonction simple, rapide et déterministe (un seuil, une petite règle linéaire, une table de correspondance) prend la décision réelle à la microseconde, souvent en matériel. En HFT, « utiliser le ML » signifie en général informer une règle rapide, pas en être une.
fθ()off-path: rich, slow    st    act if st>κhot path: simple, fast,deepbudget\underbrace{f_\theta(\cdot)}_{\text{off-path: rich, slow}} \;\longrightarrow\; s_t \;\longrightarrow\; \underbrace{\text{act if } s_t \gt \kappa}_{\text{hot path: simple, fast}}, \qquad \ell_{\text{deep}} \gg \ell_{\text{budget}}

Le corollaire pour le choix du modèle : aux vraies latences HFT le gagnant est souvent le modèle le plus simple qui capte le signal : il tourne plus vite, surajuste moins, et est plus facile à valider. La complexité est une charge de chemin critique, pas seulement de surajustement (le budget lui-même vit sur colocation et FPGA). Éloignez l'horizon (vers les secondes, les minutes, ou la couche recherche et portefeuille) et la contrainte de latence se relâche ; modèles profonds et LLM deviennent tout à fait raisonnables. L'objection du chemin critique est spécifique à la décision haute fréquence, pas au ML en trading en général.

Le tableau réaliste de 2026, LLM compris

En 2026, le ML est une partie mûre et standard de la pile quant : incrémentalement utile pour les signaux et classifieurs, central pour la surveillance, et de plus en plus utilisé autour du trading via les LLM pour l'analyse d'actualités, l'accélération de la recherche et la génération de code. C'est un outil qui compose un bon processus ; il ne sauve pas un mauvais, et il ne rend pas rapide un chemin lent.

Là où les LLM s'insèrent vraiment, c'est hors de la boucle de trading : actualités et extraction d'événements lisibles par machine (analyser dépôts, publications et titres en signaux structurés, alimentant le trading sur actualités), accélération de la recherche (littérature, génération d'hypothèses, code) et outillage (développement plus rapide de harnais et de features). Ils siègent hors du chemin critique en latence par nature : un appel LLM est de la milliseconde à la seconde, jamais de la microseconde.

Ce que l'IA ne change pas : elle ne gagne pas la course à la latence (arbitrage de latence : le fil s'achète, ne s'apprend pas), elle ne conjure pas de la capacité là où l'impact et l'encombrement la plafonnent (capacité et érosion de l'alpha), et elle n'exempte personne de la pile de coûts. Elle abaisse le coût de construire et de chercher (réellement une part de la thèse se lancer en indépendant en 2026) mais elle relève aussi la barre, parce que tout le monde a les mêmes outils. La formule honnête en une ligne : le ML améliore un processus discipliné à la marge et tourne surtout hors du chemin critique ; traitez toute affirmation qu'il est une machine à sous autonome comme un drapeau rouge.

Le surajustement est l'issue par défaut

Aux horizons HFT le rapport signal sur bruit est minuscule et les données, bien qu'abondantes, sont fortement autocorrélées et dépendantes du régime, si bien qu'un modèle flexible ajustera le bruit par défaut. Le surajustement n'est pas un cas limite ; c'est ce qui arrive sauf si vous l'empêchez activement. La discipline qui l'empêche est tout le contenu du guide backtesting et simulation.

Pourquoi c'est le défaut, pas un risque : les rendements aux micro-horizons sont presque entièrement du bruit, et un modèle à capacité suffisante expliquera volontiers le bruit de la période d'entraînement et l'appellera compétence. Ajoutez le problème des tests multiples (essayez assez de features, modèles et hyperparamètres et le meilleur a l'air formidable par hasard) et un beau résultat in-sample est l'issue attendue d'une recherche bâclée, pas la preuve de quoi que ce soit.

Cherchez sur assez de configurations et le meilleur résultat in-sample est pure sélection. Les défenses sont une validation stricte hors-échantillon et hors-période, une validation croisée purgée et embargo pour les séries autocorrélées, une comptabilité honnête des tests multiples (l'intuition du Sharpe dégonflé), et des exécutions et coûts réalistes.
maxi=1N  SR^i    inflated by 2lnN    under the null,SRdeflatedSR^max\max_{i=1\ldots N}\;\widehat{\text{SR}}_i \;\to\; \text{inflated by } \sqrt{2\ln N}\;\;\text{under the null}, \qquad \text{SR}_{\text{deflated}} \ll \widehat{\text{SR}}_{\max}

Nous ne faisons aucune promesse de performance et ne vendons aucun signal ; les outils ML que nous vendrions un jour sont de l'infrastructure (données propres, harnais de validation, pipelines de features de référence) jamais un modèle d'alpha. L'honnêteté sur le surajustement est le rempart : c'est ce qui sépare ceci de chaque ferme de contenu « l'apprentissage profond imprime de l'argent ».

Exemple travaillé

Un classifieur de carnet d'ordres à court horizon, illustratif et daté de 2026 (synthétique, pour rendre concrets les points de surajustement et de latence). Tâche : prédire le signe du prochain mouvement du mid sur les 10 prochains événements de carnet sur un nom liquide synthétique. Features : OFI sur les 20 derniers événements, déséquilibre du carnet, écart de microprice, volatilité réalisée récente, et longueur de série de signes de transactions, cinq features de microstructure construites.

Une baseline en régression logistique atteint une précision directionnelle hors-échantillon d'environ 56 % (contre 50 % à pile ou face) ; l'inférence est de quelques nanosecondes (un produit scalaire) si bien qu'elle peut siéger très près du chemin critique. Des arbres boostés par gradient sur les mêmes features atteignent environ 57,5 % ; l'inférence est de centaines de nanosecondes à microsecondes, hors du chemin critique, mais faisable près-de-ligne. Un LSTM/CNN au niveau du carnet sur l'historique brut du carnet à 10 niveaux atteint environ 58,5 % quand il est validé honnêtement hors-période (un +2 points réel mais modeste sur le modèle linéaire) mais l'inférence est de dizaines de microsecondes, fermement hors du chemin critique, si bien que son signal doit être précalculé et remis à une règle rapide.

La démonstration du surajustement. Sautez la validation hors-période et accordez sur 200 combinaisons de features et d'hyperparamètres, en gardant le meilleur in-sample : le « meilleur » modèle montre environ 64 % de précision in-sample et une glorieuse courbe d'équité qui s'effondre à environ 50,5 % (bruit) hors-période. Les 8 points de « compétence » étaient l'illusion des tests multiples.
64%  out-of-timehonest split  50.5%,honest gain58.5%56%=2 pts64\% \;\xrightarrow[\text{out-of-time}]{\text{honest split}}\; 50.5\%, \qquad \text{honest gain} \approx 58.5\% - 56\% = 2\ \text{pts}

L'enseignement en une ligne : le modèle profond a acheté environ 2 points réels au prix d'une latence bien plus élevée et d'une exposition au surajustement bien plus grande ; que cet arbitrage en vaille la peine dépend entièrement de votre discipline de validation et de votre budget de latence, et sur le chemin critique, la réponse est en général d'expédier le modèle linéaire. Tous les chiffres sont synthétiques ; reproduisez l'effondrement par surajustement directement dans le guide de backtesting en basculant le découpage hors-échantillon et le curseur des tests multiples.

Où cela s'inscrit