数据挖掘--数据挖掘10大算法

nn2e

贡献于2014-03-31

字数:0 关键词: 数据挖掘

Sunstone Zhang 编译 数据挖掘者 http://idmer.blog.sohu.com 数据挖掘10大算法 Top 10 Algorithms in Data Mining ICDM 2006 Panel 12/21/2006, Coordinators: XindongWu and VipinKumar 注:ICDM的全称是IEEE International Conference on DataMining Page 2 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 3 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 4 三步鉴定流程 1. 提名 (Nominations) 使用以下三个步骤来选出数据挖掘的10大算法 § 在2006年9月召开的ICDM会议上,我们邀请了ACM KDD创新大奖(Innovation Award)和 IEEE ICDM研究贡献奖(Research Contributions Award)的获奖者们来参与数据挖掘10大算 法的选举,每人提名10种他认为最重要的算法 § 除一人未参与外,其他获奖者均给出了算法的提名 § 每个提名中均需同时给出以下信息: - (a) 算法名称 - (b) 提名理由摘要 - (c) 算法的代表性论文 § 每个提名算法都应该被相关领域的研究者们广泛引用和使用,每位提名者给出的同类算法应 该是数据挖掘重要应用领域的代表 Page 5 三步鉴定流程 2. 审核 (Verification) 使用以下三个步骤来选出数据挖掘的10大算法 § 在2006年10月,我们通过Google Scholar对每个提名算法的引用情况进行了审核,从候选名 单中删除了低于50篇论文引用的算法 § 最终剩下18种提名算法通过了审核,它们分属10类数据挖掘主题 3. 投票 (Voting) § 我们邀请了更多的专业人士来从这些候选算法中投票选出10大算法,他们包括 - (a) KDD-06、ICDM ‘06和SDM ’06的程序委员会成员 (Program Committee members) - (b) ACM KDD创新大奖和IEEE ICDM研究贡献奖的获奖者们 § 根据票数排名筛选出10大算法 (如果票数相同,则按字母顺序进行排名) Page 6 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 7 18种通过审核的候选算法 § 分类 (Classification) - 1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. - 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. - 3. K Nearest Neighbours(kNN): Hastie, T. and Tibshirani, R. 1996. DiscriminantAdaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. - 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. § 统计学习 (Statistical Learning) - 5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-VerlagNew York, Inc. - 6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. § 关联分析 (Association Analysis) - 7. Apriori: RakeshAgrawaland RamakrishnanSrikant. Fast Algorithms for Mining Association Rules. In VLDB '94. - 8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. C4.5 CART Naïve Bayes kNN SVM EM Apriori FP-Tree Page 8 18种通过审核的候选算法 § 链接挖掘 (Link Mining) - 9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextualWeb search engine. In WWW-7, 1998. - 10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. § 聚类 (Clustering) - 11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. - 12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. § 袋装与推进 (Bagging and Boosting) - 13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. PageRank HITS K-Means BIRCH AdaBoost Page 9 18种通过审核的候选算法 § 序列模式 (Sequential Patterns) - 14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. - 15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayaland M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. § 集成挖掘 (Integrated Mining) - 16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. § 粗糙集 (Rough Sets) - 17. Finding reduct: ZdzislawPawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, KluwerAcademic Publishers, Norwell, MA, 1992 § 图挖掘 (Graph Mining) - 18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern Mining. In ICDM '02. GSP PrefixSpan CBA gSpan Finding reduct Page 10 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 11 算法陈述 § 每种算法的陈述包括以下内容: - a) 算法的概要描述 - b) 算法的应用 - c) 该算法目前和未来的研究方向 § 每位陈述人会介绍自己 - 对该算法有深入的研究 - 尽量使用算法原作者的幻灯片,可以适当修改 - 提出自己对该算法的观点和意见 Page 12 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 13 数据挖掘十大算法:一览表 分类 分类 分类 集装与推进 链接挖掘 统计学习 关联分析 统计学习 聚类 分类 挖掘主题 L.Breiman Hand, D.J Hastie, T Freund, Y. Brin, S. McLachlan, G RakeshAgrawal Vapnik, V.N MacQueen, J.B Quinlan, J.R 作者 1984 2001 1996 1997 1998 2000 1994 1995 1967 1993 发表时间 Dan Steinberg34CART10 QiangYang45Naïve Bayes9 VipinKumar45kNN8 Zhi-HuaZhou45AdaBoost7 Christos Faloutsos46PageRank6 JoydeepGhosh48EM5 Christos Faloutsos52Apriori4 QiangYang58SVM3 JoydeepGhosh60K-Means2 Hiroshi Motoda61C4.51 讲解人得票数算法排名 Page 14 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法:一览大算法:一览 55.. 开放式讨论开放式讨论 Page 15 开放式讨论 § 由算法的原作者和陈述人来编写调查表 § 如何更好地使用这10大算法? § 是否需要为这10大算法专门编写一本书? - IDMer注:该书已出版,参见右图封面。书名为 《The Top Ten Algorithms in Data Mining》, 编著者为XinDongWu和VipinKumar § 针对这10大算法的任何问题展开讨论 Page 16 ICDM 2006会议的算法投票结果 § 共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种候选算 法进行投票 § 开放式投票选出的前3大算法 (Top3 Algorithms) - C4.5: 52票 - SVM: 50票 - Apriori: 33票 § 10大算法 - ICDM 2006Panel与会者选出了前10大算法,结果和前面的“数据挖掘10大算法” 相同。 Page 17 THE END Page 18 数据挖掘10大算法(思维导图) Page 19 数据挖掘10大算法(思维导图)-C4.5

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档