|
大家都知道,我寫過很多安利,也推薦過不少工具。不過不同的工具推薦程度是有區(qū)別的。 有的是「不錯,這個玩意解決了這個問題,說不定什么時候能用得上」; 有的是「這個工具真不錯,必須推薦給大家」; 還有的是「我靠,這個也太吊了吧,你們快看看我發(fā)現(xiàn)了什么?!」 今天這個就屬于第三種,是那種我用過之后就忍不住想嘚瑟給你們看的程度。 這個工具所在的賽道并不新奇,說白了就是文字轉(zhuǎn)語音。 如此常見的賽道上,那得有多驚艷的效果才能讓我嘚瑟給你們看呢? 不廢話了,你自己來聽吧。 沒錯,這就是全部 AI 生成的。 我不知道你聽了之后是什么感覺,如果你震驚于這個驚艷的效果的話,可能你會進一步猜測,做成這么夸張的效果,得多復雜的提示詞才能實現(xiàn)呢? 那么接著告訴你,0 提示詞,我只提供給它了一個素材鏈接而已:https:///4 然后,等幾分鐘后,你就聽到了一個有主持串場、對話交流、實時互動,逼真到不像話的專業(yè)播客音頻。 我知道 AI 轉(zhuǎn)音頻遲早會達到接近真人效果,但沒想到的是,這一天這么早就來了。 AI 生成播客 這個一鍵生成專業(yè)播客的工具就是谷歌的 NotebookLM,原本定位是一個基于 RAG 的個性化 AI 助手產(chǎn)品,用來歸納知識,整理筆記,然后生成音頻。 但由于這個生成音頻的效果過于出色,以至于現(xiàn)在大部分 NotebookLM 用戶主要都在用這個功能來轉(zhuǎn)播客。 但是之前因為不支持中文,所以國內(nèi)還沒流行開,很多小伙伴可能聽說過,但沒怎么用過。 不過現(xiàn)在可不一樣了,最近它終于支持中文了,那我必須來玩玩看。 正如你們聽到的那個音頻,我上來就選了個不太尋常的素材,就是這個金雞兒網(wǎng),都是小伙伴們喜聞樂見的一些內(nèi)容。 大家可別誤會,選這個倒不是說我有多愛看這些內(nèi)容,完全是出于秉承探索 AI 能力邊界的精神,看看對于這種敏感內(nèi)容,谷歌的 AI 會怎么處理。 沒錯,完全沒有別的意思。 結(jié)果,它就生成了一篇效果相當離譜的播客音頻。 怎么樣,聽 AI 一本正經(jīng)地聊 AV 是什么感覺? 我先收一下,先從本職工作方面評價下這篇 AI 播客。 兩個 AI 主持人,一男一女,聲音自然到讓人分不出是 AI 還是真人。 主要表現(xiàn)在兩方面,一個是說話思考停頓,一個是兩人的語氣詞,大家一定要細品,往常使用 AI 文字轉(zhuǎn)語音我還沒有聽過這樣的效果。 更厲害的是,他們的對話一點都不生硬,抑揚頓挫,情感豐富,重點突出,完全不輸專業(yè)主持人的水準。 主持人之間的互動也特別自然,一個拋出話題,另一個接話圓潤,甚至還能根據(jù)內(nèi)容調(diào)整語氣和語速。 比如說到重要觀點時會放慢語速加重語氣,聊到輕松話題時又會變得活潑自然,這種細節(jié)處理真的讓人驚嘆。 用技術(shù)語言描述就是,它已經(jīng)做到了同一詞匯在不同語境中會有不同情感、不同語速、不同音調(diào)的細膩區(qū)分,這種細節(jié)微調(diào)能力著實有點嚇人了。 內(nèi)容方面更是讓人刮目相看。它不是簡單地把文字讀出來,而是會重新組織語言,把要點提煉出來,用對話的方式展現(xiàn)。 要知道,往常想做這樣一期播客,即使在 AI 的加持下也得折騰大半天。 首先要用 AI 把網(wǎng)頁內(nèi)容總結(jié)提煉,然后把總結(jié)的內(nèi)容轉(zhuǎn)成播客文本,還得調(diào)整對話的形式和語氣。 接著還要挑選合適的聲音,把文本轉(zhuǎn)成兩種不同的聲音。最后還得做后期處理,調(diào)整節(jié)奏和銜接。這一通操作下來,沒個大半天根本搞不定。 但是 NotebookLM 直接把這些工作壓縮到了幾分鐘之內(nèi)。你提交個網(wǎng)址,泡杯咖啡的功夫,一段專業(yè)水準的播客就新鮮出爐了。 我好奇的是,這背后的提示詞工程究竟是怎么控制的,讓任何用戶來用,都能達到如此穩(wěn)定的輸出效果,包括文本拆解、轉(zhuǎn)播客腳本、生成音頻、情感語速微調(diào)等等,谷歌還是有點東西的,不得不服。 NotebookLM 使用方法 你是不是也動心了,想玩玩看,那接下來給大家詳細介紹一下玩法。也就是NotebookLM 的音頻概覽功能「 Audio Overviews 」。 使用方法特別簡單: 1.打開官網(wǎng)(需要魔法) https://notebooklm.google 有谷歌賬號的話直接就能登錄,都不用注冊。 2.點擊「試用 NotebookLM 」 ![]() 3.再點擊「新建筆記本」 ![]() 4.上傳資料 前面沒有講它支持上傳哪些文件,這里著重講一下。 除了 Word ,它基本支持大部分格式的文件,什么 PDF、文本、Markdown、mp3 以及網(wǎng)頁,最多支持上傳 50 個資源。 ![]() 5.這是上傳文件后的界面,可以看到,除了音頻概覽,還可以同時生成思維導圖文件。 ![]() |
|
|
來自: 網(wǎng)羅燈下黑 > 《待分類》