那曲檬骨新材料有限公司

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

面向流式數據的增量式字符串相似性連接方法

大?。?/span>0.87 MB 人氣: 2017-12-25 需要積分:2

  字符串相似性連接是數據質量管理的基本操作,也是數據價值發現的關鍵步驟。針對目前已有的方法不能滿足面向大數據的增量式處理需求的問題,提出一種面向流式數據的增量式字符串相似性連接方法-Inc-Join,并對方法的索引技術進行了優化。該方法以Pass-Join字符串連接算法為基礎,首先,采用字符串劃分技術將字符串劃分成多個互不相交的子串;然后,建立字符串的反向索引列表并將其作為狀態;最后,新增數據只需根據狀態進行相似性計算,每次連接操作結束后都對狀態進行更新。實驗結果表明,Inc-Join方法在不影響連接準確率的同時,有效將長、短字符串重復匹配次數減少為根號n(n是批處理方式的匹配次數)。實驗對3種數據集進行處理,發現使用批處理方式進行相似性連接的響應時間是Inc-Join的1至4.7倍,并呈現急劇遞增的趨勢;而且優化后Inc-Join方法的響應時間最小只占優化前的3/4,并隨處理數據的增多所占比例越來越小。同時優化后的Inc-Join不需要保存狀態,再一次減小了算法執行的時間和空間開銷。

面向流式數據的增量式字符串相似性連接方法

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發表評論

      用戶評論
      評價:好評中評差評

      發表評論,獲取積分! 請遵守相關規定!

      ?
      百家乐官网如何视频| 大发888赢速通充值| 太阳城百家乐官网的破解| 红树林百家乐的玩法技巧和规则 | 太阳城娱乐城怎么样| 百家乐会骗人吗| 澳门百家乐官网博彩能做到不输吗| 大发888下载大发888娱乐城| 太阳城百家乐群| 百家乐官网分析博彩正网| 百家乐官网l路单| 喜来登娱乐城| 百家乐龙虎台布作弊技巧| 澳门百家乐官网下三路| 尊龙国际| 威尼斯人娱乐棋牌平台| 太阳城百家乐筹码租| 澳门百家乐官网真人娱乐场| 易胜博娱乐| 三公百家乐在哪里可以玩| 网上的百家乐官网怎么才能| 百家乐官网推二八杠| 百乐门娱乐城| 立博百家乐的玩法技巧和规则| 易胜博百家乐下载| 代理百家乐官网最多占成| 博彩优惠| 大发888怎么注册不了| 百家乐平技巧| 实战百家乐博彩正网| 神话百家乐官网的玩法技巧和规则| 澳门百家乐官网怎么赢钱| 网上百家乐官网优博| 大发888娱乐方| 威尼斯人娱乐城骗子| 百家乐技巧-澳门百家乐官方网址| 风水24山走水| 天博百家乐官网的玩法技巧和规则 | 百家乐有公式| 火命与金命做生意| 曼哈顿百家乐官网娱乐城|