回到家,剛進(jìn)門,你對(duì)著空氣說(shuō),“幫我看下家里還有哪些食材,出個(gè)今晚的菜譜?!奔依锏摹爸悄芄芗摇绷⒓椿卮鹆四?,還幫你把菜譜投屏了出來(lái)……
這樣的情景,是不是在不少科幻片里見過(guò)?如今,類似的“AI智能管家”可能就要實(shí)現(xiàn)了。
最近,國(guó)外一位熱衷于AI的程序員小哥,成功讓手機(jī)攝像頭成為了ChatGPT的最新版本——GPT-4的“眼睛”,打造出了一款能看到現(xiàn)實(shí)空間的AI助手(AI assistant)……↓ 這位程序員小哥叫麥凱·瑞克利(Mckay Wrigley),4月27日,他在推特上發(fā)布視頻并寫道:
“我讓GPT-4擁有了眼睛。我是這樣操作的:給視覺模型添加了一些數(shù)據(jù);給AI攝像頭訪問(wèn)權(quán)限;問(wèn)它一些關(guān)于場(chǎng)景的問(wèn)題;它識(shí)別物體;它在網(wǎng)上搜索信息使用該信息準(zhǔn)確回答?!?/section>An AI developer has hacked his iPhone to become the eyes of GPT-4, turning his iPhone into an all-seeing AI-powered assistant. 視頻里,小哥介紹道,自己采用了一些軟件。比如,他用視覺模型YOLOv8來(lái)檢測(cè)和識(shí)別物體;用OpenAI公司的語(yǔ)音自動(dòng)識(shí)別系統(tǒng)Whisper來(lái)檢測(cè)自己說(shuō)的話,并把語(yǔ)音轉(zhuǎn)換成文字,輸入給GPT-4。而GPT-4寫出來(lái)的文字,會(huì)由AI語(yǔ)音生成器自動(dòng)讀出來(lái)。此外,他還使用了谷歌搜索引擎及Python編程。 就這樣,GPT-4既能說(shuō)話,也能看見了。OpenAI介紹語(yǔ)音自動(dòng)識(shí)別系統(tǒng)Whisper的網(wǎng)頁(yè)截圖Mckay Wrigley took to Twitter last week to reveal how he had created an AI assistant that can see using his iPhone.
Wrigley used a wild combination of software, YoloV8 for object detection, a vision model, GPT-4 for the AI, OpenAI Whisper for voice, Google Custom Search Engine, and Python, hacked together 'in a fun way.'
小哥表示,創(chuàng)建出這款應(yīng)用比看起來(lái)要“簡(jiǎn)單100倍”,他還興奮的說(shuō),“這就是世界很快就會(huì)變成的樣子”。
He says it was '100x easier' than it looks to create and that 'this is what the world will soon look like.'
5月3日,小哥發(fā)布了他的“GPT之眼”的最新演示(demo)視頻,并激動(dòng)宣布:“未來(lái)就在眼前(The future is here)!”這個(gè)演示視頻可以說(shuō)相當(dāng)“科幻”了↓ “請(qǐng)記住,眼前這個(gè)AI沒有任何先驗(yàn)知識(shí),它只能通過(guò)攝像頭來(lái)獲取信息。” 小哥在視頻開頭說(shuō),“大家可以看到,屏幕上的這些框就是它在識(shí)別物體。它還會(huì)從互聯(lián)網(wǎng)上搜索信息。”“Keep in mind that this AI, it has no prior knowledge of anything. It will only get information from the camera, see all these boxes doing object detection, and from the information it can search on the internet.” 接下來(lái),小哥按下運(yùn)行按鈕,GPT-4立即用女聲說(shuō):“我有什么能幫您的嗎?(What can I help you with? )”小哥問(wèn):“什么是生酮飲食(keto diet)?” GPT-4回答說(shuō):“生酮飲食是一種低碳水化合物、高脂肪的飲食。它可以降低血糖和胰島素水平,并使身體的新陳代謝從碳水化合物轉(zhuǎn)向脂肪和酮類。” “The keto diet is a low carb, high fat diet. It lowers blood sugar and insulin levels, and shifts the body's metabolism away from carbs and towards fat and ketones. ” 小哥接著說(shuō):“好的。我想知道,如果我給你看一些食物,你能告訴我哪些屬于生酮食物嗎?” “All right, I want to know if I show you food that I have, can you identify which food is keto?” GPT-4答道:“當(dāng)然。給我看看你的食物,我能告訴你哪些是生酮食物。” “Sure. Show me your food, and I'll tell you what is a keto food. ” 之后,小哥打開冰箱,用很快的速度拍攝了冰箱里的牛油果、牛排、橙子、檸檬、醬料等食物。視頻可見,即便小哥拍得很飛速,這些物品都被檢測(cè)到,并框了起來(lái)。之后,小哥關(guān)上冰箱,對(duì)大家解釋說(shuō):“當(dāng)我關(guān)上冰箱的時(shí)候,它就明白我不想繼續(xù)展示了,然后它應(yīng)該就能開始處理信息了。” “And when I turn away from the fridge, it's gonna know that we're not looking at the fridge anymore, and it should be able to process this.” 過(guò)了幾秒鐘,GPT-4說(shuō):“看起來(lái),你家里有牛排、菠菜、黃油、牛油果和檸檬。這些都是很棒的生酮食物。”“It looks like you have steak, spinach, butter, avocados, and lemons. Those are all great keto foods.” 小哥接著指示GPT-4:“我想讓你在網(wǎng)上搜索一個(gè)使用這些食材的菜譜,這樣我就可以做晚餐了。” “I want you to search the internet for a recipe that uses those ingredients so that I can make dinner. ” GPT-4連網(wǎng)搜索了一會(huì)兒后回答:“我搜到一個(gè)叫《15分鐘快手檸檬大蒜黃油牛排配菠菜》的菜譜,用到了你有的食材?!?并在屏幕上給出了菜譜的網(wǎng)頁(yè)鏈接。 之后,小哥點(diǎn)進(jìn)GPT-4給的菜譜網(wǎng)頁(yè),發(fā)現(xiàn)不是很完美,因?yàn)槔锩嬉灿玫搅怂淅餂]有的食材。不過(guò),小哥對(duì)于這個(gè)“GPT之眼”還是頗為滿意。他表示,這還不是一個(gè)完整的產(chǎn)品,只是一個(gè)演示,對(duì)于一個(gè)自己剛剛搞出來(lái)的東西,效果已經(jīng)令人印象深刻了。
小哥還說(shuō),他非常期待蘋果公司今年夏天即將推出的AR眼鏡。如果搭配上AI,或許能開發(fā)出來(lái)更酷的東西。 看來(lái),我們離科幻片中的世界,又近了一步…… 綜合來(lái)源:@mckaywrigley,iMore網(wǎng),英國(guó)那些事兒
|