整数と浮動小数点数

はじめに

計算機でよく使われてる数値として、

整数 (C言語で言うところのint)
浮動小数点数 (C言語で言うところのdouble)

がある。これらの内部フォーマットについて簡単にまとめる。

整数型

C言語で言えば、整数はその長さに応じて、

char 8bit整数(文字型)

short int 16bit整数

long int 32bit整数

int 32bit整数

のような数値がある。これは現在最も普及しているシステムでの数値であり、これとは異なる場合もある。

また、整数型には符号無し整数と符号付き整数の2種類がある。C言語で言えば

unsigned int a;
signed int b;

のようにunsignedまたはsignedを付加でき、unsignedならば0または正の数を、 signedは正負の数を表現できる。何も付けない場合はsigned扱いになる。

符号無し整数

まず、unsigned int型が計算機内でどう表現されているか説明する。以下に、bit patternと数値との対応を示す。

bit pattern 数値

11111111111111111111111111111111 4294967295

... ...

00000000000000000000000000000010 2

00000000000000000000000000000001 1

00000000000000000000000000000000 0

bit pattern	数値
11111111111111111111111111111111	4294967295
...	...
00000000000000000000000000000010	2
00000000000000000000000000000001	1
00000000000000000000000000000000	0

つまり普通の2進数であり、32個の各bitが次のような重みを持っている。

2³¹ 2³⁰ 2²⁹ ..... 2¹ 2⁰

上記のように、nビットで 0～2ⁿ-1の範囲の数を表現できる。すなわち、Cのunsignedな整数型は、

char 0～255

short int 0～65535

long int 0～4294967295

の範囲の数が表せることになる。

符号付き整数

次に、signed int型は計算機内でどう表現されているか説明する。 1bitを削ってそこを符号bitにし、残りの31bitに絶対値を入れればいいような気もするが、それとは異なるフォーマットになっている。以下に、bit patternと数値との対応を示す。

bit pattern 数値

01111111111111111111111111111111 2147483647

... ...

00000000000000000000000000000010 2

00000000000000000000000000000001 1

00000000000000000000000000000000 0

11111111111111111111111111111111 -1

11111111111111111111111111111110 -2

... ...

10000000000000000000000000000000 -2147483648

bit pattern	数値
01111111111111111111111111111111	2147483647
...	...
00000000000000000000000000000010	2
00000000000000000000000000000001	1
00000000000000000000000000000000	0
11111111111111111111111111111111	-1
11111111111111111111111111111110	-2
...	...
10000000000000000000000000000000	-2147483648

このような負の数の表現形式を「2の補数形式」と呼ぶ。 32個の各bitが次のような重みを持っていると考えることもできる (先頭だけ重みが負になっている)。

-2³¹ 2³⁰ 2²⁹ ..... 2¹ 2⁰

上記のように、2の補数形式の場合、nビットで -2^n-1～2^n-1-1の範囲の数を表現できる。すなわち、Cのsignedな整数型は、

char -128～127

short int -32768～32767

long int -2147483648～2147483647

の範囲の数が表せることになる。このようなフォーマットを採用している理由は、オーバーフローを無視したunsigned用の32bit加算器を、そのままsigned用の加算器として使えることが大きな理由として挙げられる。

浮動小数点数

次に、浮動小数点数 (C言語でのfloat、double) について説明する。これらは、基本的に「浮動小数点形式」と呼ばれる形式で格納されている。例えば、「1234.5」に対する「1.2345×10³」のように、小数点の位置を1番左の数値と左から2番目の数値の間に移動し (この作業を「正規化」と呼ぶ)、それに指数を掛けた形式である。この「1.2345」の部分を「仮数部」といい、「10³」の部分を「指数部」という。

浮動小数点数は仮数部の長さ、指数部の長さ、指数が2か10か16か、など、様々なバリエーションが考えられ、実際昔は計算機メーカー毎に様々なフォーマットが乱立していた。そこで、1985年にWilliam Kahanが中心となって

IEEE 754: Standard for Binary Floating-Point Arithmetic

という標準規格が制定された。幸いなことにこれ以降に世に出たハードウェアのほぼ全てがこの規格に従うこととなった。以下、IEEE 754 Std.のフォーマットについて説明する。倍精度(C言語で言うところのdouble)、単精度(C言語で言うところのfloat)の 2種類が規格化されている。

倍精度浮動小数点数

まず、倍精度を説明する。倍精度は、符号(±)に1bit、指数部に11bit、仮数部に 52bit使って表す。全部で64bit=8byteである。

1(符号) 11(指数部) 52(仮数部)

符号は、0なら正、1なら負。
指数部は、「×2^指数」の指数の部分に1023を加えたものが11bit符号無しの整数の形で格納されている。
仮数部は、実際の仮数部の先頭の「1」を取り除いた残りが格納されている。表したい数が0でない限り仮数部の先頭は必ず1なので、それをメモリに格納しないことによって1bit分精度を稼いでいる。

すなわち、符号部をs、指数部を11bit符号無し整数と解釈したものをe、仮数分のbitの並びをmとしたとき、それが表す数値xは、

x = (-1)^s × 1.m × 2^e-1023

のような式で書ける。

例えば、5.25は2進数で書くと

  101.01 = 1.0101×2²

であるから、計算機内では、

0 1000000001 0101000000000000000000000000000000000000000000000000

のように格納されている。指数部の「1000000001」は、「2+1023=1025」を2進数にしたものである。

ここまでは比較的簡単であるが、IEEE 754 Std.には複雑な例外事項がある。以下それについて説明する。指数部eは11bit符号無しなので0から2047まで取れるが、その両端の数 (0と2047) は特殊な数を表すのに使われていて、上で説明した規則が使われるのは指数部が1から2046まで (1023を減じた実際の指数では-1022から1023まで) の間である。

e=0、m=0なら、x=±0である。
e=2047、m=0なら、x=±無限大である。
e=2047、m≠0なら、NaN (Not a Number) を表す。負数の平方根など、不可能な演算の結果を表すのに使われる。
e=0、m≠0は「非正規化数」を表す。これに対して通常の1≤e≤2046のときの数を「正規化数」という。非正規化数においては、
x = (-1)^s × 0.m × 2^-1022
のような数値を表す。赤字のところの違いに注意。

まとめると、次の表のようになる。

- m = 0 m ≠ 0

e = 0 ±0 x = (-1)^s × 0.m × 2^-1022 (非正規化数)

1 ≤ e ≤ 2046 x = (-1)^s × 1.m × 2^e-1023 (正規化数)

e = 2047 ±∞ NaN (Not a Number)

正の正規化数の最大の数は、 e=2046, m=111...111なので、
1.111...111 × 2¹⁰²³ = 2¹⁰²⁴-2⁹⁷¹ ≈ 10^308.25
であり、これを超えた数は無限大になる。これを一般にオーバーフローという。また、正の正規化数の最小の数は、e=1, m=000...000なので、
1.000...000 × 2^-1022 = 2^-1022 ≈ 10^-307.65
であり、これを下回る数を0にすることを一般にアンダーフローという。しかし、IEEE 754 Std.では、ここでアンダーフローさせずにある「悪あがき」をしている。これが非正規化数である。非正規化数は、文字通り「正規化していない」数である。正規化数の最小数の最終bitを1だけ減じると、
0.111...111 × 2^-1022
となり、これを正規化すると
1.111...110 × 2^-1023
となって、指数部の限界を超えてしまう。そこで、「2^-1022を下回ったら正規化をやめて指数部を2^-1022に固定して仮数部をそのままmとして格納する」という約束にする。これが非正規化数である。これにより、
0.111...111 × 2^-1022
0.111...110 × 2^-1022
...
0.100...000 × 2^-1022
0.011...111 × 2^-1022
...
0.000...001 × 2^-1022 = 2^-1074 ≈ 10^-323.31
のような数が表現できるようになる。ただし、これらの2^-1022と2^-1074の間の数は、本来53bitあるべき仮数部の長さが52bit∼1bitまで減ってしまっており、精度が低下していることに注意する必要がある。
単精度浮動小数点数
単精度浮動小数点数(C言語で言うところのfloat)は、全部で32bit=4byteで、

1(符号) 8(指数部) 23(仮数部)

のようになっている。指数部のオフセットが1023から127になるなどの違いはあるが、ほとんど倍精度と同じ。表にまとめると次の通り。

- m = 0 m ≠ 0

e = 0 ±0 x = (-1)^s × 0.m × 2^-126 (非正規化数)

1 ≤ e ≤ 254 x = (-1)^s × 1.m × 2^e-127 (正規化数)

e = 255 ±∞ NaN (Not a Number)

丸めについて
倍精度(または単精度)浮動小数点数同士の演算(加減乗除など)の結果は、倍精度(または単精度)浮動小数点数で表せるとは限らない。そのときは、「その値に近い倍精度(または単精度)浮動小数点数で代用する」ということが行われる。これが丸めである。一般的には、その数の上と下の表現可能な数のうち近い方で代用する。
例えば10進数で仮数部3桁の浮動小数点演算を考え、2/3を計算すると、
2.00×10⁰ / 3.00×10⁰
=0.66666666...×10⁰ =6.6666666...×10^-1
となり仮数部3桁には収まらないが、仮数部の4桁目で例えば四捨五入を行うと、
6.67×10^-1
のようになる。このときの計算値と真値との差
6.67×10^-1 - 6.6666666...×10^-1
=3.3333333...×10^-4
が丸め誤差である。
IEEE 754 Std.では、2進数なので、基本的には0捨1入で丸めが行われる。例えば、10進数の「0.1」をIEEE 754 Std.のdoubleに変換してみる。

0.1 (10) = 0.000110011001100110011... (2) = 1.10011001100110011...×2^-4 (2)

である。e-1023=-4だからe=1019であり、

1019 (10) = 01111111011 (2)

である。仮数部は無限小数になっているのでそのまま格納出来ない。小数点以下は、 52bit以内とそれ以降で区切って表示すると、

1001100110011001100110011001100110011001100110011001 10011001100....

となる。はみ出た部分の先頭が「1」なので、0捨1入で繰り上げる。最終的には、計算機内では、

0 01111111011 1001100110011001100110011001100110011001100110011010

のように格納されている。すなわち、10進数の0.1は計算機には正確に格納できず、少しだけ0.1より大きい値で格納されていることが分かる。

偶数丸め

(少し細かい話なので読み飛ばしてもよい。)

一般に、10進数における四捨五入、2進数における0捨1入は、切り捨てと切り上げのうち近い方(誤差が小さい方)に丸めるという分かりやすいポリシーに基づいている。しかし、例えば2進数の10.1(10進数の2.5)を整数に丸めることを考えると、切り捨てた10(10進数の2)と切り上げた11(10進数の3)との距離はともに1/2で等しいが、 0捨1入では切り上げが選ばれることになる。

この「上下との距離が等しい」場合に、必ず切り上げるのではなく「偶数丸め」と呼ばれるルールに基づいて切り捨てか切り上げかを選ぶとよいことが知られており、IEEE754でもそのルールに従って丸めを行うことになっている。偶数丸めルールは、切り捨てた結果と切り上げた結果の仮数部の末尾を見比べて、偶数である方を選ぶというルールである。切り捨てた結果と切り上げた結果の仮数部の末尾は1違いなので、必ずどちらかは偶数でどちらかは奇数である。 2進数では仮数部の末尾は0か1なので、0の方に丸める。

例えば、倍精度で1+2^-53の計算結果がどうなるか考えてみる。この値は2進数で

1.00000000000000000000000000000000000000000000000000001

で全長54bitなので、倍精度には収まりきらない。この数を切り上げた数と切り捨てた数はそれぞれ

1.0000000000000000000000000000000000000000000000000001
1.0000000000000000000000000000000000000000000000000000

であり、丸めによって生じる誤差はどちらも同じ2^-53であるが、末尾が0である切り捨てが行われることになる。

Machine Epsilon

一般に、浮動小数点数のフォーマットの精度を表す目安として、 machine epsilonが用いられる。 machine epsilonは、

(1より大きな最小の浮動小数点数)-1

で定義される。 IEEE 754 Std.においては、

(倍精度) 2^-52 ≈ 2.2×10^-16 ≈ 10^-15.65
(単精度) 2^-23 ≈ 1.19×10^-7 ≈ 10^-6.92

である。この値は、一回の演算で混入する誤差の、計算結果の絶対値に対する相対的な大きさを表す。

整数と浮動小数点数

`char`	8bit整数(文字型)
`short int`	16bit整数
`long int`	32bit整数
`int`	32bit整数

`char`	-128～127
`short int`	-32768～32767
`long int`	-2147483648～2147483647

-	m = 0	m ≠ 0
e = 0	±0	x = (-1)^s × 0.m × 2^-1022 (非正規化数)
1 ≤ e ≤ 2046	x = (-1)^s × 1.m × 2^e-1023 (正規化数)
e = 2047	±∞	NaN (Not a Number)