电竞比分网-中国电竞赛事及体育赛事平台

分享

神策沙龍回顧:大數(shù)據(jù)技術(shù)和金融、房產(chǎn)、理財(cái)?shù)纳疃冉Y(jié)合

 long16 2016-12-25

前言

在大數(shù)據(jù)井噴的時(shí)代,各行各業(yè)所產(chǎn)生的數(shù)據(jù)就是一座座金礦,如何設(shè)計(jì)大數(shù)據(jù)應(yīng)用,更有效、創(chuàng)新的發(fā)掘大數(shù)據(jù)的價(jià)值,也是行業(yè)內(nèi)一直在追尋并探索的答案。

12月17日,有極客邦 InfoQ 和神策數(shù)據(jù)共同策劃的技術(shù)沙龍?jiān)谥嘘P(guān)村成功舉辦,來自諸葛找房、神策數(shù)據(jù)、91金融和51理財(cái)?shù)募夹g(shù)專家分享了大數(shù)據(jù)開發(fā)場景,建模,結(jié)果應(yīng)用,擴(kuò)展等技術(shù)內(nèi)容,全面展示互聯(lián)網(wǎng)金融、房產(chǎn)領(lǐng)域大數(shù)據(jù)的分析方法和價(jià)值,幫助參會(huì)者尋找新的數(shù)據(jù)利用突破點(diǎn)和應(yīng)用模式。以下是分享內(nèi)容的簡單整理。

大數(shù)據(jù)在房產(chǎn)行業(yè)的應(yīng)用探索

諸葛找房合伙人&CTO 張文戰(zhàn)根據(jù)自身所在的領(lǐng)域,分享了諸葛找房的數(shù)據(jù)體系和架構(gòu)(如下圖),BASIC 里面包括很基礎(chǔ)設(shè)施,URL META 適用來建立全國唯一房源編號(hào)的;房價(jià)預(yù)測基礎(chǔ)數(shù)據(jù)來源于房產(chǎn)政策性信息、歷史房價(jià)預(yù)估偏差、歷史真實(shí)成交價(jià)格、歷史掛牌價(jià),起到一個(gè)參考的作用。樓盤字典這部分包含樓盤基本信息、兇宅信息、戶型圖、歷史成交記錄等信息。虛假房源字典則是房源質(zhì)量評(píng)估系統(tǒng)評(píng)分較低的房源庫。

神策沙龍回顧:大數(shù)據(jù)技術(shù)和金融、房產(chǎn)、理財(cái)?shù)纳疃冉Y(jié)合

中介識(shí)別系統(tǒng)包括模式識(shí)別、虛假信息、中介號(hào)碼庫、用戶?行為分析等,其目的就是為了識(shí)別出虛假房源:房源本身不存在、房源已售、中介冒充個(gè)人、描述不真實(shí)、價(jià)格異常等房屋信息。識(shí)別的技術(shù)方式包括通過成交記錄、圖片識(shí)別率、房源相似度等手段來識(shí)別。

為了獲取更多有效數(shù)據(jù),數(shù)據(jù)挖掘系統(tǒng)起到了至關(guān)重要的作用,數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成包括:數(shù)據(jù)源,數(shù)據(jù)預(yù)處理系統(tǒng),特征?程,數(shù)據(jù)挖掘平臺(tái),算法庫,算法評(píng)估系統(tǒng),算法結(jié)果反饋及優(yōu)化系統(tǒng)。

  • 數(shù)據(jù)源:鏈家、我愛我家、愛屋及屋、搜房、豆瓣、貼吧、建委、合作商

  • 數(shù)據(jù)挖掘平臺(tái):Job 調(diào)度、大數(shù)據(jù)可視化;

  • 數(shù)據(jù)預(yù)處理系統(tǒng):異構(gòu)數(shù)據(jù)源、結(jié)構(gòu)化處理、數(shù)據(jù)清洗;

  • 特征工程:數(shù)據(jù)和特征決定數(shù)據(jù)挖掘上限;

  • 算法庫:統(tǒng)一定義 input、output,靈活適應(yīng);

  • 算法評(píng)估及反饋優(yōu)化系統(tǒng):點(diǎn)擊、轉(zhuǎn)化、回爐策略、正負(fù)樣本學(xué)習(xí)擬合;

神策沙龍回顧:大數(shù)據(jù)技術(shù)和金融、房產(chǎn)、理財(cái)?shù)纳疃冉Y(jié)合

數(shù)據(jù)挖掘體系的算法庫的功能在于提供各種算法包,統(tǒng)?定義了輸?與輸出規(guī)范,適用于相對(duì)應(yīng)的數(shù)據(jù)挖掘工作。這其中就有三個(gè)基礎(chǔ)版本:單機(jī)版,Hadoop 版,Spark 版,適用于不同的場景。而具體使用到的技術(shù)分類如下:

  • 分類:LR,SVM,樸素貝葉斯,決策樹,HMM

  • 聚類:k-means,Dirichlet Process,Minhash,Canopy,Spectral

  • 回歸:Linear Regression

  • 特征選擇:SVD,PCA,ICA

  • 關(guān)聯(lián)規(guī)則:FP growth

  • 推薦算法:ItemCF

  • 時(shí)間序列:exponential smoothing

神策分析的設(shè)計(jì)與實(shí)現(xiàn)

神策分析是一個(gè)支持私有化部署的用戶行為分析產(chǎn)品,支持全端埋點(diǎn)、海量數(shù)據(jù)任意維度的實(shí)時(shí)分析,并且還提供了完全開放的 PaaS 平臺(tái)特性。神策數(shù)據(jù)聯(lián)合創(chuàng)始人兼首席架構(gòu)師 付力力介紹了神策分析的產(chǎn)品理念,以及由此所決定的技術(shù)選型和架構(gòu)設(shè)計(jì)的思路,并對(duì)幾個(gè)核心模塊的實(shí)現(xiàn)進(jìn)行深度解析。

神策沙龍回顧:大數(shù)據(jù)技術(shù)和金融、房產(chǎn)、理財(cái)?shù)纳疃冉Y(jié)合

在設(shè)計(jì)之初,就要考慮客戶需求,產(chǎn)品功能,技術(shù)選型等因素,同時(shí)還要考慮產(chǎn)品的私有化部署屬性,對(duì)數(shù)據(jù)的安全與隱私、數(shù)據(jù)資產(chǎn)積累、數(shù)據(jù)的深度應(yīng)用與二次開發(fā)都有著很高的要求。這其中的核心技術(shù)決策包括:可以私有化部署,并優(yōu)化運(yùn)維部署的成本;以開源方案為主,便于復(fù)用和客戶二次開發(fā);數(shù)據(jù)模型盡量簡潔,減少 ETL 代價(jià)和使用成本;每天十億級(jí)別數(shù)據(jù)量下,秒級(jí)導(dǎo)入,秒級(jí)查詢;存儲(chǔ)明細(xì)數(shù)據(jù),隨用隨查。

關(guān)于技術(shù)實(shí)現(xiàn),它的整個(gè)流程是這樣的,先是數(shù)據(jù)接入,數(shù)據(jù)傳輸,然后是數(shù)據(jù)建模/存儲(chǔ),緊接著是數(shù)據(jù)查詢,最后是數(shù)據(jù)可視化/反饋,將分析結(jié)果展示出來。整個(gè)架構(gòu)圖如下:

神策沙龍回顧:大數(shù)據(jù)技術(shù)和金融、房產(chǎn)、理財(cái)?shù)纳疃冉Y(jié)合

在前端埋點(diǎn)上,神策提供了三種不同的埋點(diǎn)方式,第一個(gè)是默認(rèn)埋點(diǎn):自動(dòng)采集所有的頁面瀏覽、控件操作、App啟動(dòng)等;可視化埋點(diǎn):采集指定的控件操作,無法自定義屬性;代碼埋點(diǎn):自定義任意的事件和屬性。在數(shù)據(jù)傳輸方面,使用了 Nginx、Kafka 等開源組件,其中 Nginx 作為據(jù)接收層,保證接入層的性能和高可用,而 Kafka 則提供了高可用的分布式消息隊(duì)列,用作導(dǎo)入過程中的數(shù)據(jù)緩沖。

在數(shù)據(jù)存儲(chǔ)方面,神策使用了 Kudu,一個(gè)新的開源存儲(chǔ)引擎,用作 WOS (Write Optimized Store),來保證秒級(jí)的實(shí)時(shí)寫入。數(shù)據(jù)查詢上則主要通過神策自己的 QueryEngine 來生成 SQL,并提交給 Impala 執(zhí)行。

付力力最后說到,由于神策分析主要是部署在客戶的私有網(wǎng)絡(luò)環(huán)境里,這樣就需要一個(gè)強(qiáng)大的擁有自我修復(fù)功能的監(jiān)控系統(tǒng),在無人干預(yù)的情況下盡可能的保證系統(tǒng)的穩(wěn)定運(yùn)行。

利用大數(shù)據(jù)對(duì)金融界用戶畫像進(jìn)行分析

來自91金融的 CTO 宋傳勝介紹了在互聯(lián)網(wǎng)廣告以及互聯(lián)網(wǎng)金融領(lǐng)域,用戶畫像地位很重要,應(yīng)用也很廣泛。但是在獨(dú)立的第三方金融系統(tǒng)中,如何獲得大數(shù)據(jù),并且通過大數(shù)據(jù)的分布式算法對(duì)用戶進(jìn)行畫像分類和畫像分析,是很關(guān)鍵的技術(shù)點(diǎn)。

首先是收集有價(jià)值的數(shù)據(jù),來源是通過用戶在各種網(wǎng)絡(luò)設(shè)備上的行為沉淀的數(shù)據(jù),金融機(jī)構(gòu)會(huì)選擇合適的數(shù)據(jù),識(shí)別出同一個(gè)用戶的不同行為,然后是建立模型,并且驗(yàn)證數(shù)據(jù)的可用性。為了避免數(shù)據(jù)重復(fù),所以要確定用戶的唯一 ID,采集不同維度的用戶數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)集。整個(gè)過程依靠任務(wù)調(diào)度系統(tǒng)進(jìn)行數(shù)據(jù)挖掘,收集上來的數(shù)據(jù)涵蓋 PV/UV、訪問時(shí)長、地域、時(shí)間、跳出率、停留時(shí)間等等。

除此之外,還會(huì)有第三方數(shù)據(jù)采集的途徑,包括桌面軟件的 Cookie 植入、桌面安裝軟件列表特征抽取、提取 URL History,特征抽取、網(wǎng)站域名和分類、通過模板抽取查詢?cè)~、Category 抽取、提取鍵盤輸入信息等等。電商和社交環(huán)境下,關(guān)鍵的數(shù)據(jù)收集基本上來自類目、購物車、收藏、支付、轉(zhuǎn)發(fā)、評(píng)論、關(guān)注、點(diǎn)贊等等。

宋傳勝重點(diǎn)講了數(shù)據(jù)挖掘模型的構(gòu)建內(nèi)容,LDA 文檔主題模型涵蓋用戶文檔、特征詞匯(類目,行為,查詢,網(wǎng)址)、主題屬性;通過人工標(biāo)注的方式來選取有用的數(shù)據(jù);之后是將主題屬性代入模型實(shí)現(xiàn)迭代訓(xùn)練。例如像識(shí)別羊毛客這樣的風(fēng)控應(yīng)用,就可以識(shí)別出IP屬性(代理、VPN、網(wǎng)關(guān)、服務(wù)器),以及用戶的行為特征,包括發(fā)生時(shí)間,行為間隔等等。

后臺(tái)回復(fù)關(guān)鍵詞「神策」,下載全部PPT講義

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多