|
前兩天,夸克發(fā)布了他們的 AI 眼鏡,看得心癢癢,真的想買一個體驗一下。 我有這么一個感覺,AI 眼鏡不會只是簡單的信息顯示設(shè)備,一定會成為人類走進(jìn)數(shù)字世界的入口。 算上年中大火的小米 AI 眼鏡,怪不得今年被業(yè)內(nèi)稱為 AI 眼鏡元年。 但是,在這些光鮮亮麗的科技潮品背后,還有一個問題值得被關(guān)注: 除了讓我們更爽,AI 還能不能為社會少數(shù)群體做點什么? 比如,視障群體。 說實話,我之前對這個領(lǐng)域的關(guān)注也不夠。直到最近,我在 B 站刷到了一個 UP 主,叫 AI 研究室-帆哥。 視頻地址:bilibili.com/video/BV1THstzuEZ9 看完他的視頻,我整個人都被深深的震撼了。 他沒有開發(fā)布會,沒有炫酷的 PPT,他做了一件非常硬核且樸素的事: 用 100 多元,手搓了一個 AI 眼鏡,然后蒙住自己的雙眼,替盲人朋友們,去體驗了這個世界。 100 多元的 AI 眼鏡 帆哥這個項目的起點,源于一個非常純粹,甚至有點軸的念頭。 他因為一條關(guān)于 AI 視覺能力的評論,開始思考一個問題:AI 能否成為盲人的第三只眼睛? ![]() 是啊,我們都在說 AI 視覺多強(qiáng)多強(qiáng),能識別萬物了。但是,真正的視障朋友,他們能用上嗎? 現(xiàn)實是殘酷的,在日常生活中,幾乎看不到盲人。 為什么?因為不敢出來。因為外面的世界對他們來說,太危險了。 市面上的 AI 眼鏡,他也調(diào)研了一圈,結(jié)果非常令人失望,大部分 AI 眼鏡并不是實時交互的,有一些利用雙目深度相機(jī)增加了更多傳感器,功能更強(qiáng)大但是也變得更加的大、更加的貴了。 這不行。真的不行。 帆哥總結(jié)了視障群體真正需要的 AI 設(shè)備的四個要素: 輕便、小型、便宜、速度快。 一定要快!視障朋友的行動速度其實比我們想象中要快,如果 AI 延遲個兩三秒,人可能已經(jīng)撞墻上了。 既要還要又要,這在工程上簡直就是噩夢。 但帆哥團(tuán)隊,真的就這么干了,他們做出來一個成本一百多元的 AI 眼鏡。 ![]() 你沒看錯,一百多元錢。這在現(xiàn)在的電子消費(fèi)品里,可能連個像樣的真無線耳機(jī)都買不到。 它是怎么做到的?帆哥直接把物料清單給曬出來了,鏡框是 3D 打印的,成本幾乎可以忽略不計, 1.WIFI 模塊天線 2.4G 4.5 元 2.MAX98357 12S 6 元 3.601452 電池- 500 毫安 10 元 4.ESP32 S3 開發(fā)板 86 元 5.ICM42688 陀螺儀 18 元 6.1811腔體喇叭 8 歐 1w 3.5 元 看到了吧,也就 ESP32 S3 芯片和陀螺儀貴一點,其它都是幾塊錢的成本。 ![]() 它的原理就是阿里開源模型千問(Qwen)作為核心大腦,搭配 YOLO 圖像識別、光流算法和自定義引導(dǎo)算法,實現(xiàn) 20 幀/秒的實時反饋。 ![]() 就這一堆看起來像電子垃圾一樣的零件,拼湊在一起,加上 Qwen Omni 多模態(tài)大模型。 一個能看、能聽、能說、能避障的 AI 眼鏡,就這么誕生了。 說實話,看到那一堆散亂的零件被組裝成眼鏡的時候,我心里只有一句:牛逼。 這是真把科技的門檻,硬生生砸到了地板上。 這就是我一直說的,AI 時代的技術(shù)平權(quán)。 蒙上眼,走進(jìn)黑暗 東西做出來了,好不好用? 如果是大廠的產(chǎn)品經(jīng)理,可能就是找?guī)讉€測試員,跑跑數(shù)據(jù),出個報告。 但帆哥是個狠人。 他為了測試這個眼鏡的真實效果,做了一個決定: 用黑膠帶把眼鏡封死,把自己變成一個盲人,走上街頭,過一天沒有光的生活。 ![]() 這個過程,屏幕前的我看著視頻,是真的服。 ![]() 對于我們普通人來說,走路是再自然不過的事情。但是當(dāng)你失去視覺,世界瞬間變成了一個巨大的、未知的深淵。 你的聽覺會變得異常敏銳,汽車的呼嘯聲、行人的腳步聲,都會在腦子里無限放大,帶來極度的不安全感。 帆哥戴著他手搓的眼鏡,拿著盲杖,踏上了盲道。 這時候,眼鏡里的 AI(Qwen Omni)開始工作了。 它不是簡單的滴滴滴報警,而是像有人在耳邊和你說右移右移。 ![]() 在視頻里,你能看到帆哥一開始走得戰(zhàn)戰(zhàn)兢兢,但在 AI 的語音指引下,他慢慢走出了直線,避開了停在盲道上的電動車,繞過了擋路的大樹。 遇到路口的時候,AI 眼鏡也能檢測到紅綠燈,如果是紅燈會提示你等待,綠燈就提醒你可以前行。 ![]() 同時也會不斷的提取斑馬線的方向,去算它的垂線,通過角度糾正和平移防止你走偏。 ![]() 雖然中間也磕磕絆絆,甚至撞到了路人,但在 AI 的實時糾正下,他真的走了起來。 去超市購物可能是我覺得最酷的一個場景。 對于視障人士來說,去超市買東西幾乎是不可能的任務(wù)。你怎么知道手里拿的是黃瓜還是茄子?你怎么知道你要的 AD 鈣奶在哪一層貨架? 帆哥走進(jìn)超市,對著空氣說:幫我找一下西瓜。 攝像頭實時捕捉到畫面,上傳云端,大模型識別物體,根據(jù)你的手部位置,告訴你西瓜在什么位置: 向上,向前... 當(dāng)他的手準(zhǔn)確地摸到那個西瓜的時候,屏幕前的我,真的起了一身雞皮疙瘩。 這就是 AI 啊,它代替了眼睛,把視覺信息轉(zhuǎn)化成了語音,重新連接了人與世界。 ![]() 外灘的夜是整個視頻里,最讓我感動的一幕。 帆哥摸索著來到了上海外灘。他看不見,但他想知道,眼前的世界是什么樣的。 他問 AI:幫我描述一下眼前的場景。 ![]() AI 眼鏡的回答,不像是一個冷冰冰的機(jī)器,而像是一個詩人: 江面被染成了柔和的紫紅色,高塔的倒影與波紋交織...夜色籠罩著古老的建筑,屋頂?shù)募t旗在灰藍(lán)的天空里劃出一抹鮮亮...整座城市像被金色的光點亮,輪廓在燈光中變得柔和... ![]() 那一刻,帆哥雖然看不見,但我相信,他的腦海里,一定出現(xiàn)了一幅比現(xiàn)實更美的畫卷。 這就叫,猶如聆聽一首散文詩。 AI 不僅給了他方向,還給了他審美,給了他感受美好的權(quán)利。 因為溫暖,所以開源 另外,還有一個點特別觸動我。 帆哥在視頻里提到,他以前也無意識地在盲道上停過車。但是當(dāng)他自己蒙上眼,哪怕只有一輛電動車擋在盲道上,對他來說都是一座無法逾越的大山。 我們中國的盲道,之所以經(jīng)常被占用,甚至被設(shè)計成斷頭路,很大程度上是因為——盲人并沒有真正進(jìn)入我們的生活。 我們看不見他們,因為他們出不來。 而當(dāng)帆哥蒙著眼在街頭測試的時候,雖然遇到了困難,但也遇到了溫暖。 有小妹妹看到他要撞到了,沖過來幫他;
有小哥一直要帶他到目的地; ![]() 有小朋友和她媽媽在旁邊默默守護(hù)著他,確保他走上正道。 ![]() 等等等等,這些讓人暖心的瞬間。 除此之外,帆哥還做了一件更偉大的事。 他把這套方案的所有代碼、安裝說明,全部發(fā)布在 AI 模型開源社區(qū) ModelScope (魔搭社區(qū)) ,你可以把它理解為中國的 Hugging Face。 ![]() 這意味著,任何一個懂點技術(shù)的廠家,甚至是一個動手能力強(qiáng)的個人,都可以拿著這套方案,去給身邊的視障人士做一個這樣的眼鏡。 甚至,廠家可以在這個基礎(chǔ)上,換更好的攝像頭,加更強(qiáng)的電池,優(yōu)化更低的延遲,把成本控制在二三百塊錢,然后量產(chǎn)。 這才是開源精神,這才是 AI 時代的偉大,它不是為了讓少數(shù)人炫技,而是為了讓多數(shù)人受益。 結(jié)語 AI 是冷的,代碼是冷的,但人是熱的,在評論區(qū)里,帆哥得到很多正向反饋,還有不少人在給他提建議。 你看,這就是集體的智慧。 ![]() ![]() 帆哥的這個項目也許它還不完美,也許它還有延遲,但它邁出了至關(guān)重要的一步:用極低的成本,驗證了 AI 大模型在視障輔助領(lǐng)域的巨大潛力。 它告訴我們,AI 不僅僅是生成幾張美女圖,不僅僅是寫幾段代碼,不僅僅是資本市場的談資。 在未來的一天,它真的可以成為那雙「眼睛」,降低視障人士出行的門檻,讓他們能更安全地走上街頭。 我也真心希望,像阿里、騰訊、百度這樣擁有大模型能力的大廠,能看到這個視頻,能看到這個需求。 你們擁有最強(qiáng)的算力,最好的模型,如果在你們的超級 APP 里,在你們的硬件生態(tài)里,能分出一點點資源,給這些視障群體。 那將是功德無量的事情。
|
|
|
來自: 網(wǎng)羅燈下黑 > 《待分類》