数据挖掘采用的技术主要有两大来源,统计学和人工智能AI. 往下细分,统计学里有很多统计模型;人工智能里有很多算法,比如决策树decision tree, 关联规则,clustering,人工神经网络等. 每种模型/算法有其适用范围和局限性,因此一个实用的数据挖掘应用往往是多种技术的混合.
原则上来说,只要掌握上述技术,用什么编程语言都应该可以实现. 为了效率高,可以采用一些现有的工具或DM软件包/类库. DM商用软件最流行的是SAS和SPSS. 如果要在现有的应用中嵌入DM功能,要看现在的应用采用的什么平台,环境,编程接口,可扩展性等. 另外要看对DM的要求程度高低. Oracle 10g, MS SQL Server 2005都提供了一定的DM功能.如果现有应用中已经在使用这些数据库的话,可以考虑直接调用.
原则上来说,只要掌握上述技术,用什么编程语言都应该可以实现. 为了效率高,可以采用一些现有的工具或DM软件包/类库. DM商用软件最流行的是SAS和SPSS. 如果要在现有的应用中嵌入DM功能,要看现在的应用采用的什么平台,环境,编程接口,可扩展性等. 另外要看对DM的要求程度高低. Oracle 10g, MS SQL Server 2005都提供了一定的DM功能.如果现有应用中已经在使用这些数据库的话,可以考虑直接调用.