电竞比分网-中国电竞赛事及体育赛事平台

分享

計(jì)算機(jī)的血肉:數(shù)據(jù)

 東耳果果 2019-11-18

QuincySx

簡(jiǎn)書

為什么計(jì)算機(jī)是基于二進(jìn)制的

最早人們出現(xiàn)了大量計(jì)算的需求,首先經(jīng)歷了人工算然后借助算盤再到步進(jìn)計(jì)算器、差分機(jī)、分析機(jī)。
計(jì)算的需求變得越來(lái)越大,機(jī)器也越來(lái)越先進(jìn),首先因?yàn)閿?shù)學(xué)家可以通過(guò)邏輯運(yùn)算進(jìn)行加減乘除等邏輯運(yùn)算,然后人們發(fā)明了機(jī)械繼電器來(lái)描述狀態(tài)表述二進(jìn)制,由于機(jī)械的東西故障率很高又經(jīng)歷了熱電子管(真空管)-> 晶體管、計(jì)算機(jī)便開(kāi)始了快速發(fā)展,二進(jìn)制也成為現(xiàn)代計(jì)算機(jī)的數(shù)據(jù)承載標(biāo)準(zhǔn)。

自從分析機(jī)出現(xiàn)后這些計(jì)算工具開(kāi)始了初步編程化,然后出現(xiàn)了打孔機(jī)。直到出現(xiàn)馮·諾依曼結(jié)構(gòu),計(jì)算機(jī)開(kāi)始蓬勃發(fā)展。

進(jìn)制轉(zhuǎn)換

先說(shuō)一下各個(gè)進(jìn)制的一般的表述方式

進(jìn)制名稱Java 中寫法一般表示符號(hào)
二進(jìn)制0b101 0b 開(kāi)頭是二進(jìn)制BIN
八進(jìn)制011 0 開(kāi)頭是八進(jìn)制OCT
十進(jìn)制11 正常數(shù)字寫法就是十進(jìn)制DEC
十六進(jìn)制0x11 0x 開(kāi)頭是十六進(jìn)制HEX

大家可以使用以下語(yǔ)句輸出一下看看具體值是多少。

System.out.println(0b101);System.out.println(011);System.out.println(11);System.out.println(0x11);

二進(jìn)制與十進(jìn)制

二進(jìn)制到十進(jìn)制:10100 = 1 * 2^4 + 0 * 2^3 + 1 * 2^2 + 0 * 2^1 + 0 * 2^0 = 20
十進(jìn)制到二進(jìn)制:20 / 2 = 10 余 010 / 2 = 5 余 05 / 2 = 2 余 12 / 2 = 1 余 01 / 2 = 0 余 1把余數(shù)倒序:10100

八進(jìn)制與十進(jìn)制

八進(jìn)制到十進(jìn)制:12345 = 1 * 8^4 + 2 * 8^3 + 3 * 8^2 + 4 * 8^1 + 5 * 8^0 = 5349
十進(jìn)制到八進(jìn)制:5349 / 8 = 668 余 5668 / 8 = 83 余 483 / 8 = 10 余 310 / 8 = 1 余 21 / 8 = 0 余 1把余數(shù)倒序:12345

十六進(jìn)制與十進(jìn)制

十六進(jìn)制到十進(jìn)制:123BF = 1 * 16^4 + 2 * 16^3 + 3 * 16^2 + B(11) * 16^1 + F(15) * 16^0 = 74687
十進(jìn)制到十六進(jìn)制:74687 / 16 = 4667 余 F(15)4667 / 16 = 291 余 B(11)291 / 16 = 18 余 318 / 16 = 1 余 21 / 16 = 0 余 1把余數(shù)倒序:123BF

字符編碼

本質(zhì)是根據(jù)標(biāo)準(zhǔn)存儲(chǔ)十進(jìn)制索引編號(hào)。
哈夫曼最小字符編碼(五位 32個(gè)值)-> Ascll 編碼(7位 128個(gè)值) -> Unicode 編碼(16位)

UTF-8 與 Unicode 的區(qū)別

大家看一看阮一峰大神寫的這一篇即可。

字符編碼筆記:ASCII,Unicode 和 UTF-8

Base64 原理

首先我們了解一下 Base64 是什么?最初網(wǎng)絡(luò)傳輸有很多特殊字符服務(wù)器無(wú)法識(shí)別,傳輸起來(lái)有些問(wèn)題,所以發(fā)明 Base64 編碼來(lái)進(jìn)行轉(zhuǎn)碼。

Base64 是使用大小寫英文字母各26個(gè)、數(shù)字10個(gè)、加號(hào) + 和斜杠 / 64 個(gè)字符來(lái)表示數(shù)據(jù)的編碼,除了有以上 64 個(gè)符號(hào),還有一個(gè) = 作為后綴。因?yàn)橹挥?64 個(gè)有效字符,所以二進(jìn)制有效位也只有 6 位(00111111 可以表示 64 個(gè)數(shù))。

Base64 索引表

因?yàn)榇颂幬覀兪寝D(zhuǎn)碼文本,所以文本轉(zhuǎn)換二進(jìn)制是通過(guò) Ascll 碼表來(lái)轉(zhuǎn)換的,然后每 6 位轉(zhuǎn)換為十進(jìn)制,然后根據(jù)十進(jìn)制查詢 Base64 索引表查詢相應(yīng)字符進(jìn)行拼接,最后使用 = 代表 6 位去補(bǔ)齊,使位的總長(zhǎng)度為 8 的倍數(shù)。解碼亦如此。

Base64 的原理看到了,我們可以戳破幾個(gè)不正確的說(shuō)法。

  1. Base64 加密算法,我們看到了這根本不是什么加密算法,只是編碼算法而已,最多使內(nèi)容不能讓人一眼就能記住。
  2. Base64 壓縮,壓縮也是不對(duì)的方法,根據(jù)他的實(shí)現(xiàn)方式,我們基本可以算出經(jīng)過(guò) Base64 編碼會(huì)使數(shù)據(jù)增大 1/3。如果是對(duì) Base64 編碼后的數(shù)據(jù)在進(jìn)行壓縮,那就是其他壓縮方式了,就不屬于 Base64 編碼的范疇了。

byte[] 與 十六進(jìn)制字符串 轉(zhuǎn)換

public static String toHex(byte[] bytes) {    if (bytes == null) {        return '';    }    final char[] hexArray = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f'};    // byte 最大值是 255 轉(zhuǎn)成字符串則為 0xFF,所以字符串長(zhǎng)度是 byte 數(shù)組的兩倍。    char[] hexChars = new char[bytes.length * 2];    int v;    for (int j = 0; j < bytes.length; j++) {        v = bytes[j] & 0xFF; // 取 8 個(gè)位        hexChars[j * 2] = hexArray[v >>> 4]; // 取高 4 位放入 char        hexChars[j * 2 + 1] = hexArray[v & 0x0F]; // 取低 4 位放入 char    }    return new String(hexChars); // 轉(zhuǎn)換為字符串}
public static byte[] fromHex(String s) { if (s != null) { try { StringBuilder sb = new StringBuilder(s.length()); for (int i = 0; i < s.length(); i++) { char ch = s.charAt(i); // 首先把空格 '\n' '\r' 等特殊字符排除掉 if (!Character.isWhitespace(ch)) { sb.append(ch); } } s = sb.toString(); int len = s.length(); // 原因已經(jīng)解釋過(guò)了 byte 數(shù)組是字符串長(zhǎng)度的 1/2 byte[] data = new byte[len / 2]; for (int i = 0; i < len; i += 2) { // 將 char 轉(zhuǎn)換為 int 當(dāng)做高 4 位 int hi = (Character.digit(s.charAt(i), 16) << 4); // 將 char 轉(zhuǎn)換為 int 當(dāng)做低 4 位 int low = Character.digit(s.charAt(i + 1), 16); if (hi >= 256 || low < 0 || low >= 16) { return null; } // 通過(guò)位運(yùn)算合并 data[i / 2] = (byte) (hi | low); } return data; } catch (Exception ignored) { } } return null; }

這個(gè)字符串轉(zhuǎn)換 byte 不好理解我們畫張圖,來(lái)輔助理解下。

媒體編碼

所有媒體都是一樣的,規(guī)范一個(gè)媒體格式為表述標(biāo)準(zhǔn),然后使用相應(yīng)格式的解析器來(lái)解析。

壓縮

壓縮在我們?nèi)粘I钪泻艹R?jiàn),一般都是對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行壓縮,我們今天為了簡(jiǎn)單就用簡(jiǎn)單的字符串舉例來(lái)講明。

無(wú)損壓縮

假如文字內(nèi)容是:你好啊你好你好你好你好你好你好你好你好你好你好

簡(jiǎn)單定義一個(gè)壓縮方法,壓縮之后就是:1*你好啊,10*你好

通過(guò)我們自定義的算法解壓縮就可以還原了,一般公司的壓縮算法都是比較復(fù)雜的。

有損壓縮

我們現(xiàn)在使用的聲音文件存儲(chǔ)的都是聲音波形。

假設(shè)有個(gè)聲音文件:12 -32 45 23 -54 0 -7 34 37 89 -23 0 -54

有損壓縮就是通過(guò)某些算法把某些無(wú)用的波形刪掉,再執(zhí)行無(wú)損壓縮,但是解碼回來(lái)就會(huì)少一部分聲音。這就是有損壓縮。

至于那些波形是無(wú)用的,是很多科學(xué)家,數(shù)學(xué)家研究得知。

編程語(yǔ)言基本類型(以 Java 為例)

類型字節(jié)
boolean18
byte18
char216
short216
int432
long864
float432
double864

計(jì)算機(jī)中最小的傳遞單位就是 1 字節(jié),一般使用 byte 來(lái)承載。我們?cè)谝话愕拈_(kāi)發(fā)中肯定會(huì)遇到這種在流中讀取數(shù)據(jù)或字節(jié)數(shù)組轉(zhuǎn)換成其他類型或在字節(jié)中讀取相應(yīng)位的數(shù)據(jù)等等業(yè)務(wù)場(chǎng)景,比如網(wǎng)絡(luò)傳輸,藍(lán)牙設(shè)備或物聯(lián)網(wǎng)設(shè)備交互的場(chǎng)景,可能都會(huì)遇到。我舉兩個(gè)高位在前,低位在后的例子,這類操作一般都是使用位運(yùn)算來(lái)實(shí)現(xiàn)。大家在業(yè)務(wù)中遇到其他的場(chǎng)景隨機(jī)應(yīng)變即可。

byte 與 char 的轉(zhuǎn)換(高位在前,低位在后)

char c1 = '中'; // 二進(jìn)制 0100111000101101 UTF-8 編碼為 ’中'byte[] bytes = new byte[2];bytes[0] = (byte) ((c1 >> 8) & 0xff); // 01001110bytes[1] = (byte) (c1 & 0xff); // 00101101char c2 = '國(guó)'; // 二進(jìn)制 0100111000101101 UTF-8 編碼為 '國(guó)'// 第一步先把 c2 的值清空,兩種方式// 1. 左移 16 位將 c2 清零c2 = (char) (c2 << 16);// 2. 無(wú)符號(hào)右移 16 位將 c2 清零c2 = (char) (c2 >>> 16);c2 = (char) (c2 | (bytes[0] & 0XFF)); // 將低八位賦值c2 = (char) ((c2 << 8) | (bytes[1] & 0XFF)); // 左移八位,繼續(xù)將低八位賦值// c2 的值被改為 ’中'

byte 與 int 的轉(zhuǎn)換(高位在前,低位在后)

int i1 = 1234567890; // 二進(jìn)制 01001001 10010110 00000010 11010010byte[] bytes = new byte[4];bytes[0] = (byte) ((i1 >> 24) & 0xFF);bytes[1] = (byte) ((i1 >> 16) & 0xFF);bytes[2] = (byte) ((i1 >> 8) & 0xFF);bytes[3] = (byte) (i1 & 0xFF);int i2 = 0;i2 = i2 | (bytes[0] & 0XFF);i2 = (i2 << 8) | (bytes[1] & 0XFF);i2 = (i2 << 8) | (bytes[2] & 0XFF);i2 = (i2 << 8) | (bytes[3] & 0XFF);

取 Int 中的其中幾位

在我們一般的物聯(lián)網(wǎng)通信中可能會(huì)在一個(gè) short 值中把操作符和 data 都放進(jìn)去。比如一個(gè) short 是 2 字節(jié)。也就是 16 位,舉個(gè)例子比如前四位表示操作符,中間8位表示數(shù)據(jù),后四位表示校驗(yàn)位。

假設(shè)與設(shè)備通訊中規(guī)定好收到兩個(gè)字節(jié)。

// byte[] 轉(zhuǎn)換成 shortshort data = 0;data = (short) (data | (bytes[0] & 0XFF));data = (short) ((data << 8) | (bytes[1] & 0XFF)); //假設(shè) data 十進(jìn)制的值為 31766 ,二進(jìn)制為 01111100 00010110// 取得前四位操作符 operator 為 28672 二進(jìn)制 0111 0000 0000 0000short operator = (short) (data & 0xF000); // 0xF000:11110000 00000000// 取得中間八位數(shù)據(jù) data1 為 3088 二進(jìn)制 0000 1100 0001 0000short data1 = (short) (data & 0x0FF0); // 0x0FF0:00001111 11110000// 取得后四位校驗(yàn)位 check 為 6 二進(jìn)制 0000 0000 0000 0110short check = (short) (data & 0x000F); // 0x000F:00000000 00001111

高位,低位

假設(shè)有個(gè)二進(jìn)制的值為 1001 0110。

高位是左邊開(kāi)始數(shù),比如高四位就是 1001。

低位是右邊開(kāi)始數(shù),比如低四位就是 0110。

小結(jié)

這一篇我講的比較亂,但是魂并沒(méi)有散,講的都是二進(jìn)制層面的一些知識(shí)點(diǎn),也許不是最常用的也不是最全面的,但是如果我這篇博客,你能夠看明白可以受益匪淺。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多