計(jì)算機(jī)的血肉：數(shù)據(jù)

東耳果果 2019-11-18

展開(kāi)全文

QuincySx

簡(jiǎn)書

為什么計(jì)算機(jī)是基于二進(jìn)制的

最早人們出現(xiàn)了大量計(jì)算的需求，首先經(jīng)歷了人工算然后借助算盤再到步進(jìn)計(jì)算器、差分機(jī)、分析機(jī)。
計(jì)算的需求變得越來(lái)越大，機(jī)器也越來(lái)越先進(jìn)，首先因?yàn)閿?shù)學(xué)家可以通過(guò)邏輯運(yùn)算進(jìn)行加減乘除等邏輯運(yùn)算，然后人們發(fā)明了機(jī)械繼電器來(lái)描述狀態(tài)表述二進(jìn)制，由于機(jī)械的東西故障率很高又經(jīng)歷了熱電子管（真空管）-> 晶體管、計(jì)算機(jī)便開(kāi)始了快速發(fā)展，二進(jìn)制也成為現(xiàn)代計(jì)算機(jī)的數(shù)據(jù)承載標(biāo)準(zhǔn)。

自從分析機(jī)出現(xiàn)后這些計(jì)算工具開(kāi)始了初步編程化，然后出現(xiàn)了打孔機(jī)。直到出現(xiàn)馮·諾依曼結(jié)構(gòu)，計(jì)算機(jī)開(kāi)始蓬勃發(fā)展。

進(jìn)制轉(zhuǎn)換

先說(shuō)一下各個(gè)進(jìn)制的一般的表述方式

進(jìn)制名稱	Java 中寫法	一般表示符號(hào)
二進(jìn)制	`0b101` 0b 開(kāi)頭是二進(jìn)制	BIN
八進(jìn)制	`011` 0 開(kāi)頭是八進(jìn)制	OCT
十進(jìn)制	`11` 正常數(shù)字寫法就是十進(jìn)制	DEC
十六進(jìn)制	`0x11` 0x 開(kāi)頭是十六進(jìn)制	HEX

大家可以使用以下語(yǔ)句輸出一下看看具體值是多少。

System.out.println(0b101);System.out.println(011);System.out.println(11);System.out.println(0x11);

二進(jìn)制與十進(jìn)制

二進(jìn)制到十進(jìn)制：10100 = 1 * 2^4 + 0 * 2^3 + 1 * 2^2 + 0 * 2^1 + 0 * 2^0 = 20

十進(jìn)制到二進(jìn)制：20 / 2 = 10 余 010 / 2 = 5 余 05 / 2 = 2 余 12 / 2 = 1 余 01 / 2 = 0 余 1把余數(shù)倒序：10100

八進(jìn)制與十進(jìn)制

八進(jìn)制到十進(jìn)制：12345 = 1 * 8^4 + 2 * 8^3 + 3 * 8^2 + 4 * 8^1 + 5 * 8^0 = 5349

十進(jìn)制到八進(jìn)制：5349 / 8 = 668 余 5668 / 8 = 83 余 483 / 8 = 10 余 310 / 8 = 1 余 21 / 8 = 0 余 1把余數(shù)倒序：12345

十六進(jìn)制與十進(jìn)制

十六進(jìn)制到十進(jìn)制：123BF = 1 * 16^4 + 2 * 16^3 + 3 * 16^2 + B(11) * 16^1 + F(15) * 16^0 = 74687

十進(jìn)制到十六進(jìn)制：74687 / 16 = 4667 余 F(15)4667 / 16 = 291 余 B(11)291 / 16 = 18 余 318 / 16 = 1 余 21 / 16 = 0 余 1把余數(shù)倒序：123BF

字符編碼

本質(zhì)是根據(jù)標(biāo)準(zhǔn)存儲(chǔ)十進(jìn)制索引編號(hào)。
哈夫曼最小字符編碼（五位 32個(gè)值）-> Ascll 編碼（7位 128個(gè)值） -> Unicode 編碼（16位）

UTF-8 與 Unicode 的區(qū)別

大家看一看阮一峰大神寫的這一篇即可。

字符編碼筆記：ASCII，Unicode 和 UTF-8

Base64 原理

首先我們了解一下 Base64 是什么？最初網(wǎng)絡(luò)傳輸有很多特殊字符服務(wù)器無(wú)法識(shí)別，傳輸起來(lái)有些問(wèn)題，所以發(fā)明 Base64 編碼來(lái)進(jìn)行轉(zhuǎn)碼。

Base64 是使用大小寫英文字母各26個(gè)、數(shù)字10個(gè)、加號(hào) + 和斜杠 / 64 個(gè)字符來(lái)表示數(shù)據(jù)的編碼，除了有以上 64 個(gè)符號(hào)，還有一個(gè) = 作為后綴。因?yàn)橹挥?64 個(gè)有效字符，所以二進(jìn)制有效位也只有 6 位（00111111 可以表示 64 個(gè)數(shù)）。

Base64 索引表

因?yàn)榇颂幬覀兪寝D(zhuǎn)碼文本，所以文本轉(zhuǎn)換二進(jìn)制是通過(guò) Ascll 碼表來(lái)轉(zhuǎn)換的，然后每 6 位轉(zhuǎn)換為十進(jìn)制，然后根據(jù)十進(jìn)制查詢 Base64 索引表查詢相應(yīng)字符進(jìn)行拼接，最后使用 = 代表 6 位去補(bǔ)齊，使位的總長(zhǎng)度為 8 的倍數(shù)。解碼亦如此。

Base64 的原理看到了，我們可以戳破幾個(gè)不正確的說(shuō)法。

Base64 加密算法，我們看到了這根本不是什么加密算法，只是編碼算法而已，最多使內(nèi)容不能讓人一眼就能記住。
Base64 壓縮，壓縮也是不對(duì)的方法，根據(jù)他的實(shí)現(xiàn)方式，我們基本可以算出經(jīng)過(guò) Base64 編碼會(huì)使數(shù)據(jù)增大 1/3。如果是對(duì) Base64 編碼后的數(shù)據(jù)在進(jìn)行壓縮，那就是其他壓縮方式了，就不屬于 Base64 編碼的范疇了。

byte[] 與十六進(jìn)制字符串轉(zhuǎn)換

public static String toHex(byte[] bytes) {    if (bytes == null) {        return '';    }    final char[] hexArray = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f'};    // byte 最大值是 255 轉(zhuǎn)成字符串則為 0xFF，所以字符串長(zhǎng)度是 byte 數(shù)組的兩倍。    char[] hexChars = new char[bytes.length * 2];    int v;    for (int j = 0; j < bytes.length; j++) {        v = bytes[j] & 0xFF; // 取 8 個(gè)位        hexChars[j * 2] = hexArray[v >>> 4]; // 取高 4 位放入 char        hexChars[j * 2 + 1] = hexArray[v & 0x0F]; // 取低 4 位放入 char    }    return new String(hexChars); // 轉(zhuǎn)換為字符串}

public static byte[] fromHex(String s) {        if (s != null) {            try {                StringBuilder sb = new StringBuilder(s.length());                for (int i = 0; i < s.length(); i++) {                    char ch = s.charAt(i);                    // 首先把空格 '\n' '\r' 等特殊字符排除掉                    if (!Character.isWhitespace(ch)) {                        sb.append(ch);                    }                }                s = sb.toString();                int len = s.length();                // 原因已經(jīng)解釋過(guò)了 byte 數(shù)組是字符串長(zhǎng)度的 1/2                byte[] data = new byte[len / 2];                for (int i = 0; i < len; i += 2) {                    // 將 char 轉(zhuǎn)換為 int 當(dāng)做高 4 位                    int hi = (Character.digit(s.charAt(i), 16) << 4);                    // 將 char 轉(zhuǎn)換為 int 當(dāng)做低 4 位                    int low = Character.digit(s.charAt(i + 1), 16);                    if (hi >= 256 || low < 0 || low >= 16) {                        return null;                    }                    // 通過(guò)位運(yùn)算合并                    data[i / 2] = (byte) (hi | low);                }                return data;            } catch (Exception ignored) {            }        }        return null;    }

這個(gè)字符串轉(zhuǎn)換 byte 不好理解我們畫張圖，來(lái)輔助理解下。

媒體編碼

所有媒體都是一樣的，規(guī)范一個(gè)媒體格式為表述標(biāo)準(zhǔn)，然后使用相應(yīng)格式的解析器來(lái)解析。

壓縮

壓縮在我們?nèi)粘Ｉ钪泻艹Ｒ?jiàn)，一般都是對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行壓縮，我們今天為了簡(jiǎn)單就用簡(jiǎn)單的字符串舉例來(lái)講明。

無(wú)損壓縮

假如文字內(nèi)容是：你好啊你好你好你好你好你好你好你好你好你好你好

簡(jiǎn)單定義一個(gè)壓縮方法，壓縮之后就是：1*你好啊，10*你好

通過(guò)我們自定義的算法解壓縮就可以還原了，一般公司的壓縮算法都是比較復(fù)雜的。

有損壓縮

我們現(xiàn)在使用的聲音文件存儲(chǔ)的都是聲音波形。

假設(shè)有個(gè)聲音文件：12 -32 45 23 -54 0 -7 34 37 89 -23 0 -54

有損壓縮就是通過(guò)某些算法把某些無(wú)用的波形刪掉，再執(zhí)行無(wú)損壓縮，但是解碼回來(lái)就會(huì)少一部分聲音。這就是有損壓縮。

至于那些波形是無(wú)用的，是很多科學(xué)家，數(shù)學(xué)家研究得知。

編程語(yǔ)言基本類型（以 Java 為例）

類型	字節(jié)	位
boolean	1	8
byte	1	8
char	2	16
short	2	16
int	4	32
long	8	64
float	4	32
double	8	64

計(jì)算機(jī)中最小的傳遞單位就是 1 字節(jié)，一般使用 byte 來(lái)承載。我們?cè)谝话愕拈_(kāi)發(fā)中肯定會(huì)遇到這種在流中讀取數(shù)據(jù)或字節(jié)數(shù)組轉(zhuǎn)換成其他類型或在字節(jié)中讀取相應(yīng)位的數(shù)據(jù)等等業(yè)務(wù)場(chǎng)景，比如網(wǎng)絡(luò)傳輸，藍(lán)牙設(shè)備或物聯(lián)網(wǎng)設(shè)備交互的場(chǎng)景，可能都會(huì)遇到。我舉兩個(gè)高位在前，低位在后的例子，這類操作一般都是使用位運(yùn)算來(lái)實(shí)現(xiàn)。大家在業(yè)務(wù)中遇到其他的場(chǎng)景隨機(jī)應(yīng)變即可。

byte 與 char 的轉(zhuǎn)換（高位在前，低位在后）

char c1 = '中'; // 二進(jìn)制 0100111000101101 UTF-8 編碼為 ’中'byte[] bytes = new byte[2];bytes[0] = (byte) ((c1 >> 8) & 0xff); // 01001110bytes[1] = (byte) (c1 & 0xff); // 00101101char c2 = '國(guó)'; // 二進(jìn)制 0100111000101101 UTF-8 編碼為 '國(guó)'// 第一步先把 c2 的值清空，兩種方式// 1. 左移 16 位將 c2 清零c2 = (char) (c2 << 16);// 2. 無(wú)符號(hào)右移 16 位將 c2 清零c2 = (char) (c2 >>> 16);c2 = (char) (c2 | (bytes[0] & 0XFF)); // 將低八位賦值c2 = (char) ((c2 << 8) | (bytes[1] & 0XFF)); // 左移八位，繼續(xù)將低八位賦值// c2 的值被改為 ’中'

byte 與 int 的轉(zhuǎn)換（高位在前，低位在后）

int i1 = 1234567890; // 二進(jìn)制 01001001 10010110 00000010 11010010byte[] bytes = new byte[4];bytes[0] = (byte) ((i1 >> 24) & 0xFF);bytes[1] = (byte) ((i1 >> 16) & 0xFF);bytes[2] = (byte) ((i1 >> 8) & 0xFF);bytes[3] = (byte) (i1 & 0xFF);int i2 = 0;i2 = i2 | (bytes[0] & 0XFF);i2 = (i2 << 8) | (bytes[1] & 0XFF);i2 = (i2 << 8) | (bytes[2] & 0XFF);i2 = (i2 << 8) | (bytes[3] & 0XFF);

取 Int 中的其中幾位

在我們一般的物聯(lián)網(wǎng)通信中可能會(huì)在一個(gè) short 值中把操作符和 data 都放進(jìn)去。比如一個(gè) short 是 2 字節(jié)。也就是 16 位，舉個(gè)例子比如前四位表示操作符，中間8位表示數(shù)據(jù)，后四位表示校驗(yàn)位。

假設(shè)與設(shè)備通訊中規(guī)定好收到兩個(gè)字節(jié)。

// byte[] 轉(zhuǎn)換成 shortshort data = 0;data = (short) (data | (bytes[0] & 0XFF));data = (short) ((data << 8) | (bytes[1] & 0XFF)); //假設(shè) data 十進(jìn)制的值為 31766 ，二進(jìn)制為 01111100 00010110// 取得前四位操作符 operator 為 28672 二進(jìn)制 0111 0000 0000 0000short operator = (short) (data & 0xF000); // 0xF000：11110000 00000000// 取得中間八位數(shù)據(jù) data1 為 3088 二進(jìn)制 0000 1100 0001 0000short data1 = (short) (data & 0x0FF0); // 0x0FF0：00001111 11110000// 取得后四位校驗(yàn)位 check 為 6 二進(jìn)制 0000 0000 0000 0110short check = (short) (data & 0x000F); // 0x000F：00000000 00001111

高位，低位

假設(shè)有個(gè)二進(jìn)制的值為 1001 0110。

高位是左邊開(kāi)始數(shù)，比如高四位就是 1001。

低位是右邊開(kāi)始數(shù)，比如低四位就是 0110。

小結(jié)

這一篇我講的比較亂，但是魂并沒(méi)有散，講的都是二進(jìn)制層面的一些知識(shí)點(diǎn)，也許不是最常用的也不是最全面的，但是如果我這篇博客，你能夠看明白可以受益匪淺。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：東耳果果 > 《電腦機(jī)器人太空激光》

舉報(bào)/認(rèn)領(lǐng)