电竞比分网-中国电竞赛事及体育赛事平台

分享

談點技術——關于Tag

 R 2005-08-06

談點技術——關于Tag

本來不懂技術的我,因為0523日就tag這個熱門話題發(fā)表過一點個人意見——《自由,抑或無序?!》,并有幸得到了herock  |  keso  等朋友的認可和推薦,其中最可貴的是duduwolf同志在【網摘短評】妥協(xié)用戶有時候可認為是對用戶的不負責任一文中給出了深度的意見。一周之后終于有時間就此話題繼續(xù)思考下去,于是寫在這里以便能得到大家的批評指教!

不敢妄談技術的我,今天附庸風雅談一下自己對tag在技術層面的一點理解,希望不會貽笑大方。就像我在《自由,抑或無序?!》中所提到的,“用技術手段實現一勞永逸的服務策略必將淪為可恥的行為,只有融入服務商真正的心血、智慧并進行過有效加工的服務才是最終被最廣大用戶期待、推崇和信賴的服務”——我所批評的只是像blogbus.com這種采用了簡陋的技術導致用戶體驗變糟的BSP(當然,那些沒有勇敢采用tag技術的BSP并非因此而值得表揚),而推崇一種能夠將tag技術進行靈活運用、深度加工、并在一定程度上規(guī)避了因用戶濫用 / 誤用 / 個性化使用tag而導致的信息質量降低的做法。

又犯了累贅的毛病,現在直接切入正題。

有一種技術,現在已經被一些網站提上研發(fā)計劃,并且盧亮曾經有文專門談及,可能就是我接下來要說的東西,只因為我對技術不夠敏感,隱約感到其中存在差別,所以在此仍然大概的說一下。

因為不同的用戶個體之間存在的客觀差異性,在用戶進行網摘操作的時候,難免會填寫不同的tag內容。其中,一種用戶是嫌麻煩、沒有認識到它的價值、不認同它的意義而棄用甚至濫用tag;第二種用戶是因為對所摘錄內容的理解不到位而誤用tag;第三種是因為不同的用戶個體之間因為文化、觀念、思維方式等存在的天然差別而過于個性化的選用tag。所有這些情況都將導致應用tag進行內容聚合的結果的質量下降,即便在將來因為有效的用戶教育一定程度上減少了濫用和誤用的現象,過于個性化的選用仍將導致同樣問題的存在。

我設想的解決方案:

首先,基于語言科學由人工設計一定數量的基本tag并進行分類整理,建立起一個基本覆蓋所有漢語詞匯和英語熱門詞匯的tag集;

其次,結合進用戶所提交的個性化tag并引進機器自動分類的方法,進行動

     態(tài)的學習更新;

第三,人工+機器智能相結合建立“tag—分類”的全面對應關系;

第四,用戶提交tag的時候由系統(tǒng)自動進行判斷——tag內容與摘要內容進行適用性判斷,tag與分類進行關聯(lián)性判斷;

第五,判斷完成后網摘信息對應到相應的分類條目,此分類信息與用戶提交的tag關聯(lián)保存;

第六,用戶使用tag進行查詢的時候(包括tag圖的方式),網摘信息中所使用的tag與查詢所使用的tag有重合且網摘所用tag 與摘要內容不存在矛盾的信息在最前;查詢所用的tag 僅與網摘信息中的摘要內容存在重合的信息在第二位;查詢所用tag 與網摘所用的tag 沒有重合,但有部分被歸屬到相同分類下的信息在第三位。

這個思路應該是對盧亮提到的新聞聚類、分類的初級理解,但運用到網摘技術中,因為每條網摘都由用戶進行了內容摘要,并進行了或者優(yōu)秀、低效,或者正確、錯誤的一次處理,這在很大程度上方便了搜索引擎的二次判斷處理。

這種比較繁瑣的做法應該對應用tag進行信息提交,并應用tag進行信息聚合、查詢的功能質量和效率都有所提高。至少比時下只對網摘信息數據庫進行一一對應的查詢要發(fā)達得多,但這種模糊查詢帶來了一定的技術成本和系統(tǒng)成本,對網摘服務提供商來講是否值得開發(fā)就要考慮性價比的問題了。但是,我一直認為:各博客服務提供商、網絡書簽服務提供商要勇敢承擔起信息篩選、濾噪甚至是標準化的艱巨工作,在廣大用戶真正養(yǎng)成良好的使用習慣之前,這很有可能成為區(qū)別實力派網站和邊緣化網站的重要區(qū)隔。

希望有一天,能讓下面的四句打油詩可以言之有物:

TAG實可貴,信息價更高??v為質量故,自由亦不拋!

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多