Comprendre les ISO,le bruit et la dynamique des appareils numériques

Par Charles VASSALLO

(2 février 2011)

Le principe

Le réglage des ISO d’un appareil photo numérique contrôle la sensibilité du capteur. On peut ainsi régler cette sensibilité image par image et c’est l’une des grandes avancées par rapport aux appareils argentiques où cette sensibilité était imposée par le film utilisé ; il fallait alors « finir la pellicule » avant de pouvoir passer sur un autre film plus rapide ou plus lent. Nous allons essayer d’expliquer comment on y arrive, et, chemin faisant, nous allons rencontrer deux notions importantes dans le fonctionnement d’un appareil numérique : le bruit dans les images et la dynamique de l’appareil.

Pour comprendre comment cela fonctionne, on peut se servir de l’image élémentaire ci-contre, où chaque pixel du capteur est vu comme un petit tube soumis à une pluie de photons — la lumière — à travers un entonnoir dont l’ouverture serait plus ou moins grande, parallèlement à l’ouverture de l’objectif. Au préalable, le tube est vide et il est bouché par l’obturateur.

On ouvre l’obturateur pendant le temps de pose et les photons recueillis atteignent un certain niveau dans le tube.

A la fin de la pose, on mesure les niveaux atteints dans chacun de ces tubes-pixels et on obtient ainsi l’image numérique, chaque pixel étant d’autant plus clair dans l’image que le niveau recueilli est plus grand (et on vide ensuite tous les tubes pour se préparer à la photo suivante)

En sensibilité nominale (la plus basse), la clarté maximale d’un pixel correspond à un tube totalement rempli. Si on fait arriver davantage de lumière, le tube déborde mais son niveau ne monte pas : c’est la surexposition. En outre, ce qui déborde va souvent polluer les pixels-tubes voisins, donnant naissance à un effet d’éblouissement généralement peu apprécié.

Le mécanisme des sensibilités supérieures est illustré ci-contre.

En quelque sorte, on regarde tout simplement les niveaux à travers une loupe (de rapport 4 dans le cas de la figure) avant de les rapporter à l’échelle de mesure, toujours la même, allant de 0 pour le noir à 100% pour la luminosité maximale.

En fait, cette image est assez proche de la réalité. Les pixels du capteurs sont autant de petits condensateurs (c.à.d. deux plaques conductrices séparées par un isolant). Pendant l’exposition à la lumière, ces condensateurs sont en circuit ouvert et ils se chargent peu à peu parce la lumière pénètre dans l’isolant et qu’il y a un effet photo-électrique qui transforme les photons incidents en électrons ; ces électrons arrivent sur les électrodes et ils ne peuvent pas s’en échapper à cause du circuit ouvert. A la fin de la pose, on réunit les électrodes pour décharger ces condensateurs. Le courant ainsi produit est amplifié à travers un circuit dont on peut faire varier le gain (pour obtenir les différents ISO) puis numérisé.

Tout cela suggère qu’on doit aboutir aux mêmes résultats que l’on monte en ISO à la prise de vue ou qu’on fasse une sous-exposition volontaire et qu’on rattrape les niveaux après coup dans Photoshop. La figure suivante montre que c’est bien ce qui se passe :

A gauche, la charte de couleurs a été prise dans la sensibilité nominale de 100 ISO afin d’avoir une référence de couleurs; au milieu, la même charte a été prise à 400 ISO ; à droite, on est resté à 100 ISO mais on a appliqué une correction d’exposition de -2EV (sous-exposition de 2 diaphragmes) puis on a repris les niveaux sous Photoshop : on obtient sensiblement la même chose. Ce que la figure ne dit pas est que le rattrapage des couleurs est de plus en plus délicat quand on augmente la sous-exposition ; il est bien plus commode de monter en ISO dans l’appareil. On trouvera ailleurs une comparaison plus approfondie.

On verra aussi dans ce lien que cette équivalence vaut aussi pour le bruit dont on va parler dans ce qui suit ; en d’autres termes, l’image rattrapée a sensiblement le même bruit que l’image prise directement en sensibilité élevée.

Oui, mais le bruit vient gâter la fête…

Il paraît donc très simple et très commode d’augmenter ainsi la sensibilité afin d’opérer dans des éclairages de plus en plus faibles. Toutefois, on on ne peut pas aller très loin dans cette direction à cause du bruit. En effet, tout à fait comme notre image le suggère, la lumière n’arrive pas comme un fluide continu mais par des gouttes séparées, les photons, qui n’arrivent pas aussi régulièrement qu’on le voudrait. Deux pixels voisins soumis à la même lumière pendant la même durée peuvent ainsi recevoir des nombres de photons différents et cet effet est d’autant plus sensible que la lumière est plus faible (en quelque sorte, on distingue mieux les gouttes quand le débit est très ralenti, alors qu’on ne les voit plus quand le débit est très fort). Autrement dit, ces irrégularités — le bruit de photons — est d’autant plus présent que l’illumination des pixels est plus faible, hélas juste alors qu’on aurait bien besoin d’augmenter la sensibilité. De surcroît, il y aussi un bruit de fond engendré en partie par le capteur, en partie par l’électronique qui l’entoure et qu’on peut visualiser comme une agitation parasite de l’ensemble du tube et qui crée de petites erreurs au moment de la lecture du niveau. Ce bruit de fond est indépendant de la lumière collectée et ce sera évidemment le facteur prépondérant en éclairage très faible. Quand on augmente les ISO — quand on se sert de la loupe pour lire nos tubes-pixels — on accroît d’autant tous ces bruits, et cela, de manière beaucoup plus gênante pour les tons sombres que pour les tons clairs.

La figure de droite montre l’effet d’une trop forte montée en ISO : une espèce de neige envahit les tons sombres.

N.B. cette illustration est une simple simulation, pour faire comprendre le phénomène. Le bruit d’une image réelle réduite à ces dimensions serait tout de même assez difficile à percevoir.

On va voir qu’un autre inconvénient du bruit, quand on monte en ISO, est qu’il restreint la dynamique de l’appareil. Mais il nous faut tout d’abord expliciter un peu plus cette notion de dynamique

Dynamique : de quoi s’agit-il ?

Un capteur d’appareil photo doit être capable d’enregistrer «correctement» une gamme étendue de luminosités. Sa dynamique est le rapport du maximum et du minimum de cette gamme. Comme on n’enregistre plus que du bruit quand la lumière devient trop faible, on sent bien que c’est ce bruit qui va déterminer la limite basse de la dynamique, mais on verra aussi qu’il provoquera une diminution globale de cette dynamique quand on montera en ISO.

Avant de voir les choses de plus près, nous voudrions ajouter plusieurs points pratiques autour de cette notion. Il n’y a pas très longtemps qu’on en parle quand on décortique les caractéristiques d’un nouvel appareil et les différentes présentations qu’on peut trouver sur Internet (en 2008-2009) ne sont pas toujours très claires, ni toujours très cohérentes entre elles.

Comme il s’agit d’un rapport de luminosités, on chiffre généralement ce rapport en EV (pour «Exposure Values») — ou en diaphragmes —, c.à.d. de combien on devrait fermer un diaphragme pour passer du maximum au minimum de luminosité. De manière plus savante le nombre de EV est le logarithme à base 2 de ce rapport, ou encore la quantité log(rapport)/log(2) avec des logarithmes décimaux ou népériens.

A croire ce que racontait dpreview vers 2008-2009 (l’un des sites les plus populaires d’analyse d’appareils photos), la plupart des reflex du moment avait tous une dynamique de 8 à 9 EV. La figure suivante permet de comprendre la portée de ce chiffre.

On y voit un dégradé noir-blanc montrant comment on passe du noir au blanc quand les composantes RVB passent de 0 à 255 ; ces valeurs RVB sont affichées en dessous de la figure. Ce qui est important est la graduation supérieure, qui montre comment la luminosité descend quand on affaiblit le blanc maximum de 1 EV, de 2 EV, 3 EV, etc. On voit qu’on atteint des valeurs très sombres quand on sort d’une dynamique typique de 8,5 EV (de manière plus précise, cela correspond à rvb< 12 ou L < 4).

La courbe de luminosité et la graduation verticale sont là à titre anecdotique, pour donner un sens quantitatif à la perception des valeurs dans le dégradé. Comme cette courbe est presque linéaire, la luminosité dans le dégradé est quasiment proportionnelle aux composantes RVB.

Or, cette graduation horizontale de 0 à 255 est précisément celle des histogrammes qui servent à vérifier l’exposition correcte des images, comme celui figuré ci-contre.

Une dynamique de 8,5 EV recouvre tous ses points sauf ceux de la petite bande orangée sur la gauche. Par conséquent, en principe, presque tous les points de l’image vont être «correctement» enregistrés. Ce ne sera pas le cas pour les points dans la bande orangée, mais on est là dans des valeurs très sombres, difficiles à distinguer du noir, sur lesquelles on devrait pouvoir accepter des erreurs importantes. Finalement, une telle dynamique paraît tout à fait convenable.

Cependant, il est bien évident que les modestes appareils d’entrée de gamme ne peuvent pas prétendre aux mêmes performances que les full-frame bien plus prestigieux. Quand on dit que tous les appareils enregistrent correctement les 8-9 EV de dynamique indispensables, on ne donne pas toujours le même sens au mot «correctement», et on va voir que le bruit joue un rôle déterminant.

Dynamiques de restitution

Une photographie est faite pour être regardée, mais il y a plusieurs façons de s’y prendre, selon qu’on l’imprime ou qu’on la regarde sur un écran. A chaque fois, on peut définir une dynamique de restitution en comparant les luminosités maximale et minimale que peut fournir le support utilisé. Pour les écrans, on donne généralement le rapport et on parle de contraste. Pour les papiers, on préfère donner la densité optique du noir par rapport au blanc du papier (alias «Dmax»), c.à.d. le logarithme à base 10 du contraste — et bien sûr, ce Dmax dépend des encres utilisées pour l’impression. Dans tous les cas, on peut utiliser le logarithme à base 2 du contraste afin de chiffrer cette dynamique en EV. Ci-après quelques chiffres typiques :

  • Les écrans ont couramment des contrastes de 300 à 1000, quelquefois davantage, ce qui se transcrit en 8 à 10 EV, ou plus. Pour vous faire une idée de votre écran, regardez la figure ci-dessous (à vrai dire, il vaudrait mieux la recopier et l’ouvrir dans votre logiciel graphique, ce sera plus précis)

Votre écran affiche (au moins) une gamme de 8 EV si vous lisez la première ligne ou de 10 EV si vous lisez la deuxième (et si vous n’écrasez pas les blancs à l’autre bout de la dynamique). Quand bien même liriez-vous ces deux lignes (qui sont des aplats dans la figure), croyez-vous qu’il soit possible d’y inscrire quelque modelé et de le percevoir ?

J’ai lu qu’on atteindrait maintenant un contraste de 10000 (13 EV) mais je suis un peu sceptique sur toute utilisation pratique :-).

  • Les papiers sont beaucoup moins performants. Les papiers mats plafonnent à des Dmax de l’ordre de 1,5–1,7, soit de 5 à 6 EV (multiplier le Dmax par 3,3). Les papiers brillants vont un peu plus loin, autour de 2,2 pour Dmax, soit de 7 à 8 EV — autrement dit, ils se rapprochent de ce que savent faire les écrans.

Pour ne rien perdre de la photo, il serait bon que la dynamique de restitution soit adaptée à celle de l’appareil. On voit qu’il n’y a pas de problème avec les écrans — on pourrait même accompagner d’éventuels progrès dans les appareils —, mais qu’il va tout différemment avec les sorties papiers, surtout sur papier mat. En fait, c’est tout le problème du tirage sur papier et c’est aussi vieux que la photographie…

Le bruit limite la dynamique et il la diminue quand on monte en ISO

La figure ci-dessous explique schématiquement comment le bruit intervient pour limiter la dynamique. On y voit comment varient le signal et le bruit délivrés par le capteur et son circuit de mesure en fonction de la lumière reçue : le signal augmente proportionnellement à la lumière reçue ; le bruit augmente aussi, mais moins vite, de telle sorte que le rapport S/B (signal/bruit) s’améliore quand la lumière augmente.

La figure de droite montre ce qui se arrive quand on passe de la sensibilité de base à une sensibilité multipliée par 4 (par exemple, quand on passe de 100 à 400 ISO).

La figure utilise des graduations très particulières sur les deux axes, telles que le déplacement d’une graduation à la suivante correspond à une division ou une multiplication par 2 (en termes savants, on parle de représentation logarithmique à base 2 sur les deux axes) — cela fait que l’axe horizontal peut être lu en EV ou, plus familièrement, en «diaphragmes». Le signal n’est utilisable que s’il se distingue suffisamment du bruit. Il faut donc que le rapport S/B soit supérieur à un certain minimum (choisi de manière arbitraire), et cela fixe la limite inférieure de la dynamique. La limite supérieure, dans la sensibilité de base, correspond évidemment à la saturation des pixels. L’échelle de mesure sur la droite n’est là que pour rappeler symboliquement que le signal détecté passe ensuite dans un circuit de numérisation (échantillonnage).

Augmenter les ISO revient à augmenter le gain de lecture. Si on admet pour simplifier que le bruit de fond ne varie pas dans cette opération, cela revient à déplacer les deux courbes de signal et de bruit vers le haut (passer la souris sur la figure) alors qu’on ne modifie pas l’échelle de lecture. La position du rapport S/B minimal ne varie pas dans l’opération et fixe toujours la limite basse de la dynamique. De l’autre côté, la limite haute correspond maintenant à des lumières trop fortes pour lesquelles le signal détecté est écrêté parce qu’il dépasse le maximum de l’échelle de lecture.

Dans le cas de la figure, on augmente le gain dans un rapport 4 (2 graduations dans la figure, passage de 100 à 400 ISO par exemple) et on voit que la dynamique est réduite de 2 EV. Dans la réalité, les choses ne sont pas aussi simples — le bruit de fond varie quand on change les ISO, ou bien le maximum de l’échelle de lecture n’est pas forcément calé sur la saturation des pixels —, mais le mécanisme général est bien celui qui vient d’être décrit.

De quel rapport S/B a-t-on besoin ?

La figure suivante montre ce qui se passe quand on rajoute du bruit à une charte de gris de 21 tons étagés de 5 en 5 en luminosité LAB, depuis le noir L=0 jusqu’au blanc L=100 (les deux échelles supérieures permettent de se situer soit en EV, soit en RVB). Chaque bande correspond à un rapport Signal/Bruit constant évalué en EV depuis 0 jusqu’à 6 EV.

Il s’agit évidemment d’une simulation construite pixel par pixel. Les plages noires, tout à gauche, ont été laissées au noir pur, sans bruit. Pour les autres pixels, on a rajouté du bruit à chacune des composantes RVB, c.à.d. une quantité aléatoire selon une loi gaussienne avec un écart type correspondant au niveau de bruit prescrit. Les RVB sortant de l’intervalle (0,255) ont bien entendu été ramenés à 0 ou 255.

Attention, le bruit dans cette simulation est certainement différent du bruit dans de vraies images numériques. Ici, chaque pixel est complétement indépendant de ses voisins. Dans la réalité, ne serait-ce qu’à cause du processus d’interpolation entre pixels voisins lors du dématriçage, il y a forcément une certaine corrélation entre ces pixels. Cette différence peut changer la perception de ce bruit.

Maintenant, que faire d’une telle figure ? Si on considère qu’on ne doit pas remarquer les fluctuations des pixels, on peut estimer

  • dans les tons médians et clairs, on discerne encore ces fluctuations pour S/B = 4 EV, mais pas pour S/B = 5 ou 6 EV ;
  • on perçoit de moins en moins ces fluctuations au fur et à mesure que le ton s’assombrit. Par exemple, on peut accepter S/B = 3 EV pour les 3 ou 4 premiers tons après le noir inclus — et même descendre à S/B = 1 EV pour le premier ton après le noir.

On peut aussi estimer que l’observation de ces chartes est plus exigeante que l’observation de photographies réelles pour deux raisons :

  • La faible définition de cette image observée à l’écran permet aisément de séparer les pixels les uns des autres, surtout si on se colle le nez à l’écran. Mais mettez-vous donc à un mètre de distance : vous vous retrouverez alors dans les conditions d’observation normales d’une image imprimée, où les pixels apparaissent beaucoup plus proches les uns des autres et où la perception des fluctuations faibles est bien plus difficile.
  • on n’a pas toujours dans les photos des aplats suffisamment grands pour bien percevoir le bruit ; le modelé ou les textures inhérentes à l’image rendent cette perception plus difficile (les flous dans les prises de vue à faible profondeur de champ font évidemment exception, mais ce n’est généralement pas la partie intéressante de ce genre d’image et il est facile d’y éliminer ce bruit).

A toutes ces réserves près, on peut admettre comme conditions minimales que le rapport signal à bruit
— démarre autour de 1 à 2 EV pour les tons les plus sombres

    (disons L<5, soit -8 EV ou moins par rapport au blanc maximum,
    ou encore rvb<21 en Adobe-98 ou rvb<13 en sRGB)
et qu’il monte à 5 ou 6 EV dans les tons les plus clairs.

Quelques performances réelles

La figure ci-dessous montre les parformances de deux appareils à l’opposé l’un de l’autre, un Nikon D3 «full frame» très performant (et très coûteux) et un Olympus E-30 nettement plus modeste mais dont le capteur «4/3» est largement critiqué dans la presse pour l’apparition trop facile du bruit dans ses images.

On voit que le D3 satisfait haut la main aux critères précédents, et cela même à 1600 ISO. Le E-30 est beaucoup plus à la peine. Du côté des tons clairs, il est toujours acceptable (bien qu’un peu tangent à 1600 ISO). Par contre, du côté des tons sombres, on ne satisfait aux critères précédents que pour 100 ou 200 ISO ; sa dynamique se restreint rapidement si on passe à des sensibilités supérieures et on voit bel et bien le bruit envahir les tons sombres.

Notas
(i) n’importe qui peut relever ces courbes ; nous expliquons ailleurs la méthode [ici].
(ii) Les échelles supérieures (en bleu) permettent de passer des EV aux valeurs des RVB dans l’espace SRGB (elles seraient légèrement différentes en Adobe-98, surtout pour les petites valeurs)

Il faut une dynamique confortable quand on retouche les images

Les figures montrent les corrections par courbes qui ont été appliquées (les histogrammes correspondent aux points affectés par ces corrections). On voit dans les deux cas qu’on a dépassé une pente de 2. Cela dégrade fortement les rapports S/B précédents et cela peut affecter la qualité de l’image..

La remontée des tons sombres dans la première figure est le cas le plus simple à analyser. Dans ce cas, comme nous l’avons expliqué plus haut, tout va se passer comme si les tons sombres de l’image avaient été photographiés avec une sensibilité accrue, mais attention ! les ISO ne sont pas multipliés par la pente de la courbe de correction, mais par pente^2.2 (avec 2.2 comme gamma des espaces colorimétriques usuels), à cause de la relation non linéaire entre les RVB bruts du capteur et les RVB du fichier image. Ce facteur monte très vite. Dans la figure ci-dessus, avec pente = 2.5, il atteint 750 ; si on pris la photo à 200 ISO, tout se passe comme si on avait pris les tons sombres à 1600 ISO. Dans le cas d’un Olympus E-30 (ou d’autres boitiers anciens), les tons sombres ainsi remontés seront affectés d’un bruit notable.

On peut donner un sens plus précis à cette prédiction ; dans le cas présent, on se retrouverait avec un rapport S/B de l’ordre de 2 EV pour ces tons éclaircis avec notre exemple du E-30; nous avons vu plus haut une charte de gris bruitée avec ce rapport S/B = 2EV… et ce n’est pas terrible. Dans notre photo, la forte texture dans le mur éclairci fait qu’on ne souffrira pas de ce bruit, mais ce ne sera pas toujours le cas ; il faudra alors faire appel aux logiciels antibruit — qui réduiront ce bruit, certes, mais au détriment des petits détails de l’image…

Les effets de la deuxième correction s’analysent différemment. Autour d’un point donné de la courbe de correction, le rapport S/B est augmenté dans le rapport pente/gain, où pente est la pente de la courbe et où gain est le gain local (c.à.d. le quotient valeur de sortie / valeur d’entrée). Dans le cas de la figure (pente=2.5 et gain entre 0.9 et 0.6 pour les valeurs affectées par la correction), ce facteur va varier de 2.8 à 4.2, soit de 1.5 EV à 2 EV. A nouveau, dans notre exemple du E-30, le bruit risque de devenir perceptible (on se retrouverait avec des rapports S/B entre 4 et 5 EV). Dans le cas de notre image, il faudra soumettre les nuages à l’action d’un logiciel anti-bruit.

Si on applique cette dernière formule à la remontée des tons sombres de la première image, on a partout pente = gain et on aboutit au résultat paradoxal que le rapport S/B n’est pas modifié par la correction. C’est exact, mais ce qui se passe est qu’un ton très sombre avec un mauvais rapport S/B se retrouve fortement éclairci, mais avec le même mauvais rapport S/B et cette fois dans un domaine de valeurs où le bruit est beaucoup plus visible.

Le possesseur de tout appareil comparable au E-30 sera donc gêné par la montée du bruit dans ces deux traitements d’image. Il pourra évidemment s’en sortir avec des logiciels anti-bruit (ou avec les options de réduction du bruit intégrées à l’appareil), mais au risque de dégrader le piqué de l’image. Mais il arrive aussi qu’on applique des retouches encore plus énergiques, pour lesquelles les problème de bruit seront encore plus critiques que dans nos deux exemples. Les possesseurs d’appareils avec une dynamique plus large (disons 10 EV ou plus pour S/B > 1EV en sensibilité de base) auront bien moins de souci.

Les chiffres de dynamique disponibles sur le web

Le site imatest propose de nombreuses techniques de mesure industrielles, mais ne publie pas de résultats. Concernant la dynamique, il préconise de donner plusieurs chiffres,
— une dynamique pour S/B > 1 EV : qualité basse
— une dynamique pour S/B > 2 EV : qualité moyenne
— une dynamique pour S/B > 3 EV : qualité haute

Le site DxOmark s’est imposé comme site de référence pour la comparaison de nombreux appareils photographiques, et, entre autres, on y trouve des chiffres de dynamique. On ne le dit pas explicitement (autant que je sache), mais ces chiffres doivent être compris pour S/B >0 EV — ce qui me paraît une définition très généreuse (même pas envisagée par imatest). Par exemple, l’Olympus E-30 est ainsi crédité de 10.4 EV à 200 ISO, alors que cela tomberait à 9 EV pour une limite plus opérationnelle S/B > 1 EV. Bien entendu, cela ne devrait avoir pas beaucoup d’importance tant qu’on ne se préoccupe que de comparer les appareils entre eux, mais on aurait aimé avoir un peu plus de précision.