|
机器学习一线牵 尿布啤酒舞翩翩
摘自:河北日报(2001-12-27
09:56:14)
采访河北大学数学与计算机学院院长王熙照博士和刚刚应聘来河大执教的、来自澳大利亚La
t r o be大学的王殿辉博士时,一个浅显形象的小故事,让记者一下子就跃上当今IT业人工智能的前沿领域————机器学习的波峰浪顶。
为了拂去记者的一头雾水,两位博士一唱一和地开始了耐心讲解,说美国有一家大型超市,经过计算机对商场以往销售记录数据的分析、归纳、整理、运算后发现这样一则规律,在超市中购买尿布的多为青年男性,他们往往在购买尿布之后还要顺手买上一听啤酒,于是超市便改变了以往婴儿用品区域与成人含酒精类商品区域“相隔千里”的布局,将二者相邻而置,结果两种商品的销量都立竿见影地大幅度上升。
这是机器学习(数据挖掘)运用于现实生活中的最为简单的一个事例,据王熙照博士介绍说,机器学习一词中的机器主要指的是电脑(电子计算机),意思是让电脑自己学习或让电脑像人一样具有学习能力。随着数据库技术的迅速发展以及因特网的广泛应用,个人或单位积累的数据资料(各类电子文档)会有一个爆炸性的增长。激增的数据背后隐藏着许多重要的信息知识。人们希望能够对这些大量的数据通过机器学习的手段进行分析、提炼,以挖掘发现有用的信息知识。目前数据库系统可以高效地实现数据的录入、查询、统计等功能,但很难发现数据间存在的关联,很难根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,出现了“数据爆炸但知识贫乏”的现象。
据了解,人工智能自1956年诞生之后取得了重大进展,先后经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。机器学习是人工智能的最重要的分支之一,被公认是人工智能发展的瓶颈。机器学习的研究在人工智能的发现(尤其是专家系统的发展)中起着举足轻重的作用。对机器学习的研究促进了人工智能在理论方法和实际应用上的迅速发展。
学习是人类获取智慧的根本途径。学习和解决问题是人类最重要的两个智能行为。机器学习是让计算机模拟和实现人类的学习的过程,目的是获取知识。机器学习也是让计算机获取智能的最主要的手段。机器学习具有快速、可复制、自主性差、机械、学习方法单一等特点。由于机器不存在人类所具有的生理因素的限制,因此,机器可以“不知疲倦”地学习,而且,在对一些数理化的知识的学习上,机器也比人的速度要快得多。而且,由于计算机程序易于复制,因此,计算机的学习是不会终止的,其所具有的知识也可以一直保留下来。但是,计算机的学习方法单一,只能根据有限的学习方法进行机械学习,本身不能创造方法,尤其是不具有人类学习所特有的“灵感思维”,这也是机器学习在目前来说尚不可克服的缺陷。
机器学习链接生活
机器学习是用计算机模拟人类学习的一门科学,目前比较成熟的算法有归纳学习算法、神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了机器学习的一个新分支:数据库中的知识发现的产生。(K
DD:K no w led g e Disco ve-r y in Da t abase)
1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现K
DD这个术语。随着参与人员的不断增多,K DD国际会议发展成为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等地得到应用。在我国,许多单位也已开始进行数据挖掘技术的研究,但还没有看到在我国成功应用的案例。
河北大学的王殿辉博士介绍说,许多著名大学和研究机构都有自己的机器学习研究中心或小组。1980年创立了机器学习国际研讨会,并每两年召开一次。机器学习有着众多的分支,归纳学习是其最主要的分支,它主要研究如何从大量数据中抽取规则(知识)。归纳学习可分为有导师学习和无导师学习。例如,股市升降分析中,我们选定某支感兴趣的股票,想通过已往的历史数据中发现,哪些股票对此股的升降有影响。这里有导师指的是我们感兴趣的那支股票以往的升降已(被导师)告诉。再如前面所讲的啤酒和尿布的例子是一种无导师的学习,即事先并不限定哪些商品是感兴趣的,而让机器自己发现商品之间的销售关联。
数据挖掘是从大量的数据中抽取出潜在的、不显为人知的有用信息、模式和趋势。数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等。现在看来主要应用范围有超市分析交易数据,安排货架上货物摆布,以提高销售;信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有;警方分析行为模式,判断哪些人对受保护的信息具有潜在威胁;药房分析医师的处方,判断哪些医师愿意购买他们的产品;保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的对象;汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册;人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息;访问没有归类的竞争对手数据库,推断出潜在的归类信息;教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们;广告公司分析人们购买模式,估计他们的收入和孩子的消费需求,作为潜在的市场信息;市场分析人员分析不同团体的旅游模式,决定不同团体之间的关联;医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题;税务局分析不同团体的交所得税的记录,发现异常模型和趋势;警方分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪。
王博士最后希望记者转告读者,他们特别希望有关部门或企事业单位能够与他们合作,在解决具体问题中小试牛刀。
河大有个机器学习研究中心
为了追踪世界前沿科技,2001年6月,河北大学“机器学习研究中心”在数学与计算机学院正式成立。一大批在海外研修或工作的学子投身于这项火热的事业之中,在国际机器学习领域占有一席之地的王殿辉博士就是其中的一位。
王殿辉博士1995年东北大学博士毕业,1995年至1997年在新加坡国立大学读博士后,1998年至2000年在香港理工大学研究员,2000年至今在澳大利亚La
t r o be大学任教。王殿辉博士是在香港从事一个总投资170万港元的机器学习项目研究期间,遇到了参与同一个项目的王熙照,王熙照对事业的孜孜追求和宽厚豁达的性格,让王殿辉感到浓浓的乡情,于是决定来保定看看,一到河北大学,有许多事情都是王殿辉博士在国外从未体味过的,学校的领导亲自到他下榻的宾馆登门拜访,可亲可爱的学生们严谨的学风,可与国外同仁媲美的一流的研究设施,这些都让王殿辉博士来不及犹豫,就兴冲冲地受聘于河大数学与计算机学院,成为机器研究中心的骨干成员。
王殿辉目前除了机器学习的科研任务之外,还和王熙照博士一起带研究生,一年中至少有3个月在河大工作,其他时间通过因特网给研究生上课。
研究如何让计算机获取知识是当今科技界关于机器学习的核心科研课题,河北大学数学与计算机学院的两位王博士是此研究领域的专家,他们都是世界著名的IEEE(国际电子电气工程师学会)会员,已经有多篇论文在IEEE会刊上发表,有的引起国际关注。王熙照博士说,我们成果的取得来源于我们有一只科研教学力量强大的队伍。河北大学数学与计算机学院于2000年10月成立,许多知名专家、学者如郭宝兰、李天柱、王凤先、哈明虎、张知学、何震、王葆祥、靳全勤等教授在此任教,他们研究的许多领域都在全省乃至全国都有较高的声望,许多理论研究和科研开发成果都在国际、国内居领先地位,这是一支学术带头人突出、梯队结构合理、人员精干、有良好发展前途的学术队伍。在多年的教学和研究中,中文信息处理与模式识别、并行处理与多机系统、智能系统与机器学习、代数学、泛函分析等研究形成了自己的优势和特色。
|