Données haute fréquence

Temps irrégulier et processus ponctuels

∞structurel

Revu le 4 juin 2026. En 2026 : un trait permanent du marché, pas un avantage qui s'érode.

Les transactions arrivent en rafales groupées, pas à l'horloge. Le modèle ACD d'Engle–Russell (1998) traite les durées entre événements comme l'objet d'étude, des maths qu'un mathématicien reconnaîtra immédiatement.

Voir en mouvement

Temps d'arrivée irrégulierstirez le regroupementIX-DURATION

Regroupement (ACD)70%

À remarquer. Les transactions n'arrivent pas à l'horloge. Elles se groupent en rafales puis se taisent. Le modèle ACD d'Engle–Russell modélise directement les durées entre événements, et c'est pourquoi l'échantillonnage à intervalle fixe jette précisément la structure qui vous intéresse.

Pourquoi les données haute fréquence sont-elles irrégulièrement espacées ?

Une bande de cotation a un enregistrement par événement, et les événements (transactions, mises à jour de cotations, changements de carnet) arrivent quand les participants agissent, pas au métronome. Une série de barres quotidiennes a une ligne par jour qu'il se soit passé quelque chose ou non ; une bande a une ligne chaque fois que quelque chose arrive, et les choses arrivent par rafales : à l'ouverture, sur une actualité, quand un gros ordre travaille à travers le carnet. L'horloge qui gouverne une bande est l'horloge événementielle, pas l'horloge murale. L'activité se regroupe parce que le flux d'ordres est auto-excitant : un ordre au marché consomme la profondeur, les teneurs de marché recotent, d'autres participants réagissent au nouveau carnet, et une seule arrivée se déploie en cascade en une rafale. C'est la même structure « les rafales engendrent les rafales » que le regroupement de volatilité, observée dans le timing plutôt que dans l'amplitude des mouvements.

Le fait de données qui s'ensuit : les durées entre événements sont sur-dispersées (leur écart-type dépasse leur moyenne), si bien qu'un processus de Poisson à taux constant, qui donnerait des durées exponentielles et équi-dispersées, est le mauvais modèle. Le regroupement est structurel, pas du bruit. Ouvrez l'explorateur ci-dessus sur le préréglage en rafales et l'histogramme des durées montre une queue droite épaisse face à la référence exponentielle.

Les durées sont sur-dispersées : l'écart-type dépasse la moyenne, si bien que l'indice de dispersion dépasse un, et un processus de Poisson à taux constant (indice exactement un) est rejeté. Le regroupement est la structure, pas du bruit.

\text{dispersion} = \frac{\mathrm{sd}(x)}{\mathbb{E}[x]} \;\gt\; 1 \qquad (\text{Poisson: } = 1)

Qu'est-ce qu'un processus ponctuel, et pourquoi modéliser les durées ?

Un processus ponctuel est le langage naturel pour des événements dispersés irrégulièrement sur une ligne de temps : il modélise quand les choses arrivent plutôt que quelle valeur une série prend à des instants fixes. Au lieu de demander « quel est le prix à 14:00:00, 14:00:01, … », ce qui force une horloge que les données n'ont pas, vous demandez « combien de temps jusqu'au prochain événement, étant donné l'histoire récente ? » Ce recadrage conserve le timing, qui est exactement là où vit l'information de microstructure. Il y a deux vues équivalentes. L'intensité $\lambda(t)$ est le nombre attendu d'événements par unité de temps étant donné le passé : élevée après une rafale, basse dans un creux. La durée $x_i = t_i - t_{i-1}$ est l'écart entre les événements $i-1$ et $i$ ; les durées courtes se regroupent autour de l'information et de l'activité, les durées longues marquent le calme.

L'espacement est lui-même de l'information. Les durées courtes prédisent des durées courtes (regroupement) ; les durées corrèlent avec la volatilité, le spread et le trading informé. La microstructure d'Easley–O'Hara nous dit que le rythme du trading lui-même signale de l'information, si bien que la durée est une feature, pas une nuisance à moyenner. La courbe d'intensité superposée au raster ci-dessus annote un groupe de durées courtes comme « information arrivant ».

Deux descriptions équivalentes du même processus ponctuel : l'intensité instantanée (événements attendus par unité de temps étant donné le passé) et les durées entre événements consécutifs. L'une comme l'autre porte le timing que l'horloge murale écarte.

\lambda(t) = \lim_{\Delta \to 0}\frac{\mathbb{E}[\,N(t+\Delta) - N(t)\mid \mathcal{F}_t\,]}{\Delta}, \qquad x_i = t_i - t_{i-1}

Qu'est-ce que le modèle ACD (Engle–Russell 1998) ?

Le modèle Autoregressive Conditional Duration (Engle–Russell 1998) est le GARCH du temps entre événements. Là où GARCH dit « la variance attendue d'aujourd'hui dépend des variances et chocs récents », ACD dit « l'attente attendue jusqu'à la prochaine transaction dépend des attentes récentes », si bien que les périodes chargées restent chargées et les périodes calmes restent calmes. Il modélise la durée attendue $\psi_i = \mathbb{E}[x_i \mid \text{past}]$ comme une mémoire pondérée des durées récentes et des attentes récentes, si bien que les durées se regroupent tout comme GARCH fait se regrouper la volatilité, et c'est le modèle canonique pour les données financières irrégulièrement espacées. Dans l'ACD(1,1) standard, $\alpha$ pondère la dernière durée réalisée et $\beta$ la persistance de l'attente ; $\alpha + \beta$ proche de 1 signifie un regroupement hautement persistant. Les durées standardisées $\varepsilon_i = x_i/\psi_i$ sont i.i.d. positives de moyenne 1, typiquement modélisées avec une base exponentielle ou de Weibull.

ACD vous permet de prévoir l'intensité de trading, de conditionner les modèles de volatilité et de spread sur le rythme d'activité, et de construire des horloges en temps événementiel. Il a ouvert tout le champ de l'économétrie sur données irrégulièrement espacées. Son proche cousin, le processus de Hawkes, modélise directement l'intensité avec auto-excitation : chaque événement passé bouscule l'intensité, qui décroît ensuite. Les Hawkes multivariés capturent la contagion inter-actifs et inter-places (une transaction ici relève le taux d'arrivée là-bas) et sont massivement utilisés dans la microstructure moderne. Montez le curseur de « persistance ACD » ci-dessus vers 1 et regardez le regroupement se renforcer.

L'ACD(1,1) est le GARCH avec des durées à la place des rendements au carré : l'écart attendu est une mémoire pondérée des écarts récents. Un processus de Hawkes énonce la même auto-excitation directement sur l'intensité, chaque événement bousculant

\lambda

d'un noyau décroissant.

\psi_i = \omega + \alpha\,x_{i-1} + \beta\,\psi_{i-1}, \qquad \lambda(t) = \mu + \sum_{t_i \lt t} \alpha\,e^{-\beta(t - t_i)}

▸ Voir la dérivation optionnel

Écrivez chaque durée comme son espérance conditionnelle fois une innovation i.i.d., exactement comme GARCH écrit un rendement comme son écart-type conditionnel fois un choc de variance unitaire.

x_i = \psi_i\,\varepsilon_i,\;\; \mathbb{E}[\varepsilon_i]=1,\; \varepsilon_i \perp \text{past} \quad\Longleftrightarrow\quad r_i = \sigma_i z_i,\;\; \mathrm{Var}(z_i)=1

Alors $\mathbb{E}[x_i \mid \text{past}] = \psi_i$ , et la récursion ACD(1,1) est la récursion GARCH(1,1) avec les durées jouant le rôle des rendements au carré.

\psi_i = \omega + \alpha\,x_{i-1} + \beta\,\psi_{i-1} \quad\Longleftrightarrow\quad \sigma_i^2 = \omega + \alpha\,r_{i-1}^2 + \beta\,\sigma_{i-1}^2

La stationnarité requiert $\alpha + \beta \lt 1$ , et la durée moyenne inconditionnelle est $\omega/(1-\alpha-\beta)$ . L'estimation se fait par quasi-maximum de vraisemblance. L'ACD exponentiel donne un QML particulièrement propre, l'exponentielle étant à l'ACD ce que la gaussienne est au GARCH.

\mathbb{E}[x] = \frac{\omega}{1 - \alpha - \beta}, \qquad \hat{\varepsilon}_i = \frac{x_i}{\hat{\psi}_i} \;\overset{?}{\sim}\; \text{i.i.d., mean } 1

Les durées standardisées $\hat{\varepsilon}_i$ devraient être i.i.d. de moyenne 1 si le modèle s'ajuste ; le diagnostic reflète les vérifications des résidus GARCH. Des bases plus riches (Weibull, gamma généralisée) et les variantes log-ACD relâchent les contraintes de linéarité et de positivité.

Temps calendaire vs temps événementiel vs temps d'activité

Le temps calendaire échantillonne sur l'horloge murale (chaque minute). Le temps événementiel avance d'un pas par événement ; le temps d'activité (volume) avance par unité de volume tradé. Si l'information arrive par rafales, alors un intervalle d'horloge fixe contient des quantités d'information très différentes (une minute calme contre une minute d'actualité), alors qu'un intervalle événementiel ou de volume fixe contient une information à peu près constante, si bien que les statistiques calculées dessus se comportent bien mieux. Les barres en temps événementiel (tick) donnent une barre par N événements ; les barres de volume une barre par N actions ou contrats ; les barres en dollars/valeur une barre par N unités de valeur tradée (robustes au niveau de prix). Chacune est une horloge d'information plutôt qu'une horloge murale.

Le bénéfice est un lien direct avec les faits stylisés : les rendements échantillonnés en temps d'activité/volume sont plus proches d'i.i.d. et moins à queues épaisses que les rendements en temps calendaire. C'est le résultat d'Ané–Geman (2000) : les queues épaisses des rendements en temps calendaire sont en partie un effet de déformation du temps, et sous la bonne horloge stochastique les rendements paraissent plus gaussiens. Donc une partie de la non-normalité dans les queues épaisses est l'horloge irrégulière, pas le processus de prix. L'application courante : VPIN regroupe la bande en buckets de volume égal précisément pour échantillonner en temps d'activité, et les barres de volume/dollars sont une pratique standard pour exactement cette raison. Activez le bouton « calendaire vs événementiel » ci-dessus et la nature en rafales s'aplanit.

Re-cadencer du temps calendaire vers une horloge d'activité

\tau

(volume ou activité cumulés) déforme le temps pour que chaque intervalle porte une information à peu près constante, et les rendements en temps déformé sont plus proches d'i.i.d. et bien moins à queues épaisses (Ané–Geman 2000).

r^{\text{calendar}}\ \text{fat-tailed} \;\xrightarrow{\;t \,\mapsto\, \tau(t)\;}\; r^{\text{business}}\ \text{closer to Gaussian, i.i.d.}

Que jette le rééchantillonnage en barres fixes ?

Rééchantillonner une bande en barres fixes (OHLCV par minute) écarte le timing et le compte des événements à l'intérieur de la barre, exactement le regroupement qui porte l'information de microstructure. Une barre d'une minute rapporte ouverture, plus haut, plus bas, clôture et volume mais pas si ces 1 000 transactions sont arrivées en une rafale de deux secondes ou réparties uniformément sur la minute. Ce sont des états de microstructure complètement différents avec la même barre, et la différence (la rafale) est la partie prédictive. Concrètement vous perdez quatre choses : le processus de durée/intensité (prévisible, tradable) ; la séquence intra-barre nécessaire aux règles de signe des transactions et aux features de flux d'ordres ; la volatilité correcte à l'échelle sous-barre (vous avez pré-moyenné le rebond et le regroupement) ; et la capacité d'aligner les événements entre instruments à la résolution native (avance-retard).

Les barres fixes conviennent pour les études à long horizon, basse fréquence où vous n'avez réellement pas besoin de structure sous-barre ; ce sont une approximation raisonnable et pratique. L'erreur est de les utiliser sans réfléchir à haute fréquence, où la structure écartée est tout l'enjeu. La discipline : choisissez l'horloge délibérément. Si le timing compte (et aux horizons HFT c'est presque toujours le cas) modélisez le processus ponctuel ou échantillonnez en temps événementiel/volume, ne réduisez pas en barres calendaires par réflexe.

Exemple travaillé

Une bande synthétique Hawkes/ACD, à la date de 2026. Reproduisez-la dans l'explorateur ci-dessus. Générez des événements avec une intensité de Hawkes $\lambda(t) = \mu + \sum \alpha\,e^{-\beta(t - t_i)}$ , base $\mu = 2$ événements/s, auto-excitation $\alpha = 1.4$ , décroissance $\beta = 3$ . Le ratio de branchement est $n = \alpha/\beta \approx 0.47$ : chaque événement engendre environ 0,47 descendant en moyenne, stable mais regroupé. Les événements arrivent alors en cascades visibles : une seule arrivée déclenche une rafale, l'intensité bondit de 2 vers 6-et-plus par seconde et redescend, et les durées vont d'environ 10 ms à l'intérieur d'une rafale à environ 1 s dans un creux.

Le ratio de branchement

n=\alpha/\beta

est le nombre attendu de descendants par événement : sous 1 le processus est stable mais regroupé, et à

\approx 0.47

près de la moitié de tous les événements sont des descendants auto-excités : les cascades que vous voyez sur le raster.

n = \frac{\alpha}{\beta} = \frac{1.4}{3} \approx 0.47 \;\lt\; 1 \quad (\text{stationary, self-exciting})

Mesurez les durées et l'écart-type dépasse la moyenne : indice de sur-dispersion supérieur à 1, si bien qu'un Poisson à taux constant (indice 1) est rejeté à l'œil et par test. Ajustez un ACD(1,1) et il récupère une forte persistance ( $\alpha + \beta$ près de 0,9 et plus) : les durées courtes prévoient des durées courtes, et les durées standardisées $\hat{\varepsilon}_i = x_i/\hat{\psi}_i$ ressortent à peu près i.i.d. de moyenne 1, confirmant l'ajustement. Re-cadencez maintenant en temps événementiel (une unité par événement) et la nature en rafales du temps calendaire disparaît : les durées sont constantes par construction, et toute série de rendements bâtie sur cette horloge est bien plus proche d'i.i.d. que sa contrepartie en temps calendaire (l'effet de déformation du temps à nouveau). Poussez $\alpha$ et les cascades s'intensifient ; c'est la structure en rafales de transactions des vraies bandes, et exactement ce qu'une barre d'une minute ne peut pas représenter. Revérifiez les ratios de branchement et les durées contre de vraies bandes avant de vous y fier ; ces chiffres synthétiques rendent le mécanisme lisible. Une bande à résolution native, en temps événementiel (pas des barres pré-rééchantillonnées) est ce qu'il vous faut pour modéliser honnêtement le processus ponctuel (jeux de données et outils).

Où cela s'inscrit

↑ Vers le haut · brique de Données haute fréquence ↔ En travers · se combine avec Queues épaisses ↔ En travers · se combine avec Déséquilibre du flux d'ordres ↔ En travers · se combine avec Trading sur actualités → Application · rapporte sur Trading événementiel directionnel → Application · rapporte sur Tenue de marché en crypto ⤓ Construire / Acheter · outil nécessaire Jeux de données et outils