La norme IEEE Standard for binary Floating-Point Arithmetic (ANSI/IEEE Standard 754 - 1985) a été définie dans le but d'améliorer la qualité du calcul flottant et la portabilité des applications. Ce standard est maintenant utilisé et respecté par tous les acteurs principaux du calcul scientifique et, en particulier, par les trois microprocesseurs étudiés. Deux formats principaux 32 et 64 bits (voir figure ) et quatre modes d'arrondis (vers , vers , vers 0, au plus près) sont définis, ainsi que des formats dits étendus.
Le nombre représenté par le flottant (S,E,M) est x (1 + M) x où : biais = 127 pour les flottants simple précision et biais = 1023 pour les flottants double précision ; la mantisse (M) est codée sur 23 bits pour les flottants simple précision et sur 52 bits pour les flottants double précision.
Les microprocesseurs MIPS R10000 et UltraSPARC supportent les formats flottants IEEE 32 et 64 bits. De plus, le jeu d'instructions SPARC V9 intègre les flottants 128 bits ; cependant ces opérations ne sont pas supportées par matériel sur l'UltraSPARC, mais émulées. L'unité flottante du PentiumPro comme les autres microprocesseurs xxx86 manipule seulement des flottants 80 bits dans un format dit <<étendu>> : 64 bits de mantisse, 15 bits d'exposant et 1 bit de signe. Nous verrons plus loin comment et quand est faite la conversion de ce format 80 bits vers les formats classiques 32 et 64 bits.