Données haute fréquence

Inférence du sens des transactions

∞structurel

Revu le 4 juin 2026. En 2026 : un trait permanent du marché, pas un avantage qui s'érode.

La plupart des flux n'indiquent pas qui était l'agresseur, alors vous l'inférez. La règle du tick signe par le changement de prix ; Lee–Ready (1991) compare la transaction au mid en vigueur. Les deux sont imparfaites, et la précision chute sur les marchés rapides.

Voir en mouvement

Inférence du sens des transactionsclassez la bandeIX-TICKRULE

100.010
?

100.014
?

100.002
?

100.004
?

100.000
?

100.016
?

100.001
?

100.007
?

100.025
?

100.005
?

100.007
?

100.008
?

100.010
?

100.035
?

À remarquer. La bande brute ne vous dit pas qui était l'agresseur. Lee–Ready compare chaque transaction au mid en vigueur : au-dessus, initiée à l'achat ; en dessous, initiée à la vente. Lancez-le et les prints non étiquetés deviennent un flux signé que vous pouvez vraiment modéliser.

Pourquoi le côté acheteur/vendeur n'est-il pas dans les données ?

Une transaction est un appariement entre un ordre au repos et un ordre entrant : la bande enregistre l'exécution (prix, taille, heure) mais la plupart des flux publics n'étiquettent pas quel côté a initié, lequel a franchi le spread pour prendre la liquidité. Quand une transaction s'imprime, deux ordres se sont rencontrés : l'un était au repos (passif, le maker), l'autre est arrivé et a franchi (agressif, le taker). La direction du taker est le « sens de la transaction » : un achat si le taker a acheté (levé l'ask), une vente si le taker a vendu (frappé le bid). Le contenu informatif est dans le choix du taker d'exiger l'immédiateté. Les bandes consolidées et la plupart des données historiques d'actions ont été bâties pour rapporter des prix, pas l'intention ; le moteur d'appariement connaît l'agresseur mais le flux public ne le portait historiquement pas. Donc l'étiquette de microstructure la plus utile est absente et doit être reconstruite.

Cela compte parce que le flux d'ordres signé est l'entrée de presque tout signal de flux d'ordres : déséquilibre du flux d'ordres, toxicité PIN/VPIN, le lambda de Kyle (impact de prix par unité de volume signé), la décomposition du spread. Mettez le sens de travers et chacun d'eux est biaisé. L'exception de 2026 : de nombreuses places crypto et certains flux modernes publient le côté taker par transaction (là où vous avez un tel flux, vous sautez ce problème) mais les données historiques, les bandes consolidées et de nombreuses places ne le font toujours pas, donc l'inférence reste une compétence centrale.

Le sens de la transaction est la direction du taker : +1 si l'agresseur a levé l'ask, −1 s'il a frappé le bid. Le moteur d'appariement le connaît ; la plupart des bandes publiques l'abandonnent, donc vous devez inférer l'étiquette qui pilote presque tout signal de flux d'ordres.

q_t = \begin{cases} +1 & \text{taker bought (lifted ask)} \\ -1 & \text{taker sold (hit bid)} \end{cases} \quad \text{(usually unobserved)}

Qu'est-ce que la règle du tick ?

La règle du tick classe une transaction par sa variation de prix : une transaction imprimée au-dessus de la transaction précédente est un achat (un uptick), en dessous est une vente (un downtick), et sur un prix plat vous reportez le dernier sens non nul (un zero-tick). Les acheteurs agressifs poussent les prix à la hausse et les vendeurs agressifs les poussent à la baisse, donc la direction de la dernière variation de prix est un proxy correct de qui exige actuellement de la liquidité. C'est grossier (elle ne peut réagir qu'après une variation de prix, classant la transaction courante avec un mouvement de prix passé) mais ça marche car le flux est persistant, et il ne lui faut que la bande de transactions, pas de cotations, raison pour laquelle c'est le recours universel.

Ses faiblesses sont l'envers : elle traîne, et elle peine sur les marchés rapides et à l'ouverture. La précision sur les actions américaines liquides est typiquement rapportée autour de 85 % face au vrai côté. Sélectionnez seulement la règle du tick dans l'explorateur ci-dessus et observez un uptick se classer comme un achat et un zero-tick hériter du sens antérieur.

Signez la transaction selon que le prix a tické à la hausse ou à la baisse ; sur un tick plat, héritez du sens précédent. Prix de transaction seuls, pas de cotations ; environ 85 % de précision sur les actions américaines liquides.

q_t = \begin{cases} +1 & p_t \gt p_{t-1} \\ -1 & p_t \lt p_{t-1} \\ q_{t-1} & p_t = p_{t-1} \end{cases}

Qu'est-ce que la règle de cotation, et qu'est-ce que Lee–Ready (1991) ?

La règle de cotation compare le prix de transaction au mid en vigueur : au-dessus du mid c'est un achat, en dessous une vente. Une transaction imprimée près de l'ask était probablement un acheteur levant l'offre ; près du bid, un vendeur la frappant. Comparer la transaction au mid contemporain est plus direct que la règle du tick car elle utilise la cotation, pas seulement l'historique des prix. Le hic est l'ambiguïté à $p_t = \text{mid}_t$ : une impression au mid n'a pas de côté à lire. Lee–Ready (1991) la résout : appliquer la règle de cotation quand la transaction est loin du mid, et se rabattre sur la règle du tick pour les impressions au mid. C'est le classifieur de sens de transaction standard sur les actions.

Lee et Ready ont aussi spécifié un alignement de chronologie transaction-cotation, retardant historiquement la cotation d'environ 5 secondes pour apparier la transaction à la cotation en vigueur avant son impression, à cause des délais de report (une réserve que la section sur les modes de défaillance reprend). La variante EMO (Ellis–Michaely–O'Hara 2000) n'utilise la règle de cotation que pour les transactions au bid ou à l'ask, et la règle du tick pour tout le reste, une répartition différente qui fait mieux sur certaines places. Lee–Ready est la référence actions, typiquement environ 85 % de précision globale, meilleure sur les transactions loin du mid, pire sur les impressions au mid et sur les marchés rapides. Le sélecteur de classifieur ci-dessus (tick · cotation · Lee–Ready · EMO) les compare sur le régime courant.

La règle de cotation signe selon de quel côté du mid la transaction s'est imprimée ; Lee–Ready l'utilise loin du mid et confie les impressions au mid à la règle du tick : le classifieur actions standard, ~85 % de précision.

q_t = \begin{cases} +1 & p_t \gt \text{mid}_t \\ -1 & p_t \lt \text{mid}_t \\ \text{tick rule} & p_t = \text{mid}_t \end{cases}

Où ces règles échouent-elles ?

Les règles de sens de transaction échouent sur quatre fronts. Sur les impressions au mid, une transaction exactement au mid n'a pas de signal de côté de cotation, donc la règle se rabat sur la règle du tick (le cas le plus faible) et les exécutions à point milieu et opaques se concentrent exactement ici, faisant des places à forte liquidité au mid les plus difficiles. Sur la chronologie transaction-cotation, la règle compare la transaction à la cotation en vigueur, mais quelle cotation était en vigueur quand la transaction s'est vraiment exécutée ? Les délais de report faisaient que Lee–Ready retardait la cotation de secondes dans les données de l'époque 1991 ; sur des données modernes à la microseconde le bon décalage est proche de zéro ou même négatif, et utiliser la règle périmée des 5 secondes dégrade la précision. Holden–Jacobsen (2014) a documenté ceci et les biais résultants dans les données actions modernes, donc utilisez les horodatages propres de la place et testez l'alignement. Sur les marchés rapides et les rafales, les cotations scintillent plus vite que les transactions ne se rapportent, la cotation « en vigueur » est ambiguë, et la précision chute exactement dans les rafales de forte activité (temps irrégulier) où le flux signé compte le plus. Et les exécutions non standard (enchères, ordres cachés/à point milieu, lots impairs) cassent carrément les hypothèses.

Le cadrage honnête : aucune règle n'est exacte. Traitez le sens de transaction comme une étiquette bruitée avec un taux d'erreur connu et dépendant du régime, et propagez cette incertitude dans tout ce que vous bâtissez dessus ; ne prétendez pas que le sens inféré est la vérité terrain. Basculez l'explorateur ci-dessus sur le préréglage « beaucoup d'impressions au mid (difficile) » et la précision chute visiblement à mesure que la matrice de confusion remplit sa diagonale extérieure.

Le sens inféré est une étiquette bruitée, pas la vérité terrain : sa précision se dégrade sur les impressions au mid, sur les marchés rapides, et là où les horodatages transaction-cotation sont désalignés. Sur des données à la microseconde le décalage classique de 5 secondes de Lee–Ready nuit activement (Holden–Jacobsen 2014).

\Pr(\hat{q}_t = q_t) \approx 0.85 \;\Rightarrow\; \text{error rate} \approx 15\%,\;\text{worst in fast, mid-heavy regimes}

La classification par volume en vrac, et pourquoi l'erreur se propage

La classification par volume en vrac (BVC, Easley–López de Prado–O'Hara) abandonne le signage par transaction. Au lieu d'étiqueter chaque transaction, elle travaille sur des barres de volume (temps d'affaires) : la part du volume d'une barre traitée comme des achats est la CDF normale centrée réduite de la variation de prix standardisée de la barre, $Z\!\big((p_{\text{end}} - p_{\text{start}})/\sigma_{\Delta P}\big)$ . Elle échange la précision par transaction contre une répartition achats/ventes agrégée plus lisse et robuste sur les marchés rapides, et c'est exactement ce que consomme VPIN.

Le vrai propos de cette page est la propagation. Tout construit de flux signé hérite de l'erreur de sens : le déséquilibre du flux d'ordres somme le volume signé ; VPIN mesure le déséquilibre entre volume d'achat et de vente ; le lambda de Kyle régresse la variation de prix sur le volume signé. Quelques pour cent de transactions mal étiquetées biaisent tous ces signaux, et le biais est pire dans les régimes toxiques et rapides, ce qui est précisément quand ces signaux sont censés être les plus informatifs. La discipline : quand vous rapportez un OFI ou un VPIN, sachez quel classifieur a produit ses sens et quel est son taux d'erreur sur votre régime. Le signal n'est aussi propre que les étiquettes sous lui. C'est l'appariement maker/taker du carnet d'ordres vu du côté des données, et là où le flux signé devient un avantage de cotation, dans la tenue de marché fondée sur le flux d'ordres / l'information.

La BVC estime la fraction d'achat d'une barre de volume à partir de sa variation de prix standardisée via la CDF normale : plus lisse que les règles par transaction et le moteur dans VPIN. Quelle que soit la méthode, son erreur d'étiquette coule droit dans l'OFI, le VPIN et le lambda de Kyle.

\widehat{V}^{\,\text{buy}} = V \cdot Z\!\left(\frac{p_{\text{end}} - p_{\text{start}}}{\sigma_{\Delta P}}\right) \;\longrightarrow\; \text{OFI, VPIN, } \lambda \ \text{inherit the noise}

Exemple travaillé

Une bande synthétique avec des vrais sens connus, à jour en 2026 ; reproduisez-la dans l'explorateur ci-dessus. Générez un prix efficient plus le rebond bid-ask, marquez chaque transaction comme taker-achat ou taker-vente (vérité terrain connue), fixez une part contrôlable d'impressions au mid (disons 15 %) et un spread réglable. Faites maintenant tourner chaque classifieur contre la vérité. La règle du tick atterrit à environ 85 %, les erreurs se concentrant là où le prix n'a pas changé (les zero-ticks héritant d'un sens périmé) et juste après que le mid se renverse. La règle de cotation atteint environ 88 % sur les transactions loin du mid, mais ne peut pas classer du tout les 15 % d'impressions au mid. Lee–Ready (règle de cotation plus repli sur la règle du tick aux impressions au mid) ressort à environ 87 % global, battant la pure règle du tick en récupérant les transactions loin du mid tout en gérant encore les impressions au mid, juste moins bien.

Puis rendez-le difficile : montez les impressions au mid à 40 % et ajoutez du scintillement de cotation de marché rapide. La précision de chaque classifieur chute (Lee–Ready vers environ 78 %) et la diagonale extérieure de la matrice de confusion se remplit, exactement le régime où vous vouliez le plus des sens propres.

Alimentez un déséquilibre du flux d'ordres avec des sens à 87 % de précision et environ 13 % du volume signé porte le mauvais sens, atténuant le signal OFI et biaisant son lien au prochain mouvement de prix. Une partie de l'« alpha » mesuré est un artefact de bruit d'étiquette.

\text{accuracy} = 0.87 \;\Rightarrow\; \approx 13\%\ \text{of signed volume mis-signed} \;\Rightarrow\; \text{OFI attenuated, biased}

Le coût en aval est la leçon : le sens inféré est une étiquette bruitée, et le bruit ne s'évanouit pas quand vous agrégez. Il se propage dans chaque signal bâti sur le flux signé, pire exactement dans les régimes toxiques et rapides que ces signaux existent pour attraper. Revérifiez les chiffres de précision contre des données réelles, à côté étiqueté, avant de vous y fier ; ces chiffres synthétiques existent pour rendre le mécanisme lisible. L'explorateur vous laisse fixer le spread, la fréquence des impressions au mid et la toxicité, basculer les classifieurs, et lire la précision exacte et la matrice de confusion contre la vérité terrain. L'inférence du sens des transactions est le quatrième de ces pièges statistiques, après le rebond bid-ask, les queues épaisses et le temps irrégulier ; des données de transactions au côté étiqueté avec un classifieur de référence comparé à la vérité terrain est exactement ce que cette page implique (jeux de données et outils).

Où cela s'inscrit

↑ Vers le haut · brique de Données haute fréquence ↔ En travers · se combine avec Le carnet d'ordres ↔ En travers · se combine avec Déséquilibre du flux d'ordres ↔ En travers · se combine avec PIN / VPIN → Application · rapporte sur L'information du flux d'ordres → Application · rapporte sur Tenue de marché en crypto ⤓ Construire / Acheter · outil nécessaire Jeux de données et outils

Questions fréquentes

Comment distinguer transactions initiées à l'achat ou à la vente ?

Vous inférez l'agresseur, car la plupart des flux ne l'indiquent pas. La règle du tick signe une transaction selon que son prix monte ou baisse par rapport à la précédente. L'algorithme de Lee–Ready (1991) compare le prix de la transaction au milieu en vigueur (au-dessus du mid c'est initié à l'achat, en dessous à la vente) avec repli sur la règle du tick au mid. Les deux sont imparfaits ; la précision chute sur les marchés rapides ou fragmentés.