北 京 大 数 据 研 究 院
BEIJING INSTITUTE OF BIG DATA RESEARCH
院长访谈

  随着科技的进步和社会的发展,现代社会正处于物联网、云计算、移动互联网、电子商务、自媒体等汇集的大数据时代。成立北京大数据研究院,北大大数据研究中心,是从国家战略需要出发、主动应对大数据时代的重要部署。对大数据这一跨领域的综合性问题开展深入研究,将引发科学研究、学科建设、产学研等方面的深刻变革,不仅可以大力推动大数据产业快速发展、技术攻关、深化产学研协同创新,而且还将有力推动人才培养和教师队伍建设。为了让大家更深入地了解北京大数据研究院,北大大数据研究中心以及数据科学交叉学科,特此转载记者对鄂维南院长的专访。



访谈实录


记者:鄂老师,您好,我们知道,北京大数据研究院和北大大数据研究中心的成立,很大程度上得益于您的倡议和努力,请问您最早有设立大数据研究中心这样的想法是在什么时候呢?


鄂维南院士:2009年,我就和林建华校长(时任北京大学常务副校长)探讨了建立数据科学研究中心的问题。当时学校正考虑设立统计中心,而统计正是大数据最基础的一部分,学校建立统计中心是一个非常好的举措。近年来,统计中心引进了一大批人才,使北京大学的统计有了比较强的基础,也从一个方面为建立数据科学研究中心奠定了基础。

记者:从2009年提出设立大数据中心的构想,历时六年,直到今年正式成立北京大数据研究院和北大数据科学研究中心,为什么会持续六年这么久呢?


鄂维南院士:首先要强调,六年下来,北京大学虽然对外进行宣传的不多,但是实际上我们做了很多事情:我们设立了交叉学科学位分会,设立了全校范围的大数据科学委员会,自主设置了数据科学本科专业和学术型研究生专业,我们把全校的大数据研究生教育都统一到了一个共同的交叉学科平台上。在研究方面,除了统计中心以外,我们还建立了文理大数据研究中心等其它平台。

  北大大数据研究中心直到今年才正式成立,原因很简单,主要是我们对数据科学研究中心的定位必须要非常准确并且有较高的要求。要有长远的计划,不能抱着试试看的态度。

  北京大学建立大数据研究中心,主要定位于两个方向:第一,面向国家的需求、市场的需求。大数据不仅是一个非常重要的学术研究方向,也要满足社会、市场和经济等各方面的需求。早在2012年我们就已经非常重视这一问题,当时我们召开了“数据科学与信息产业研讨会”,邀请了学术界、企业界许多重要人物共同讨论了这一问题。第二,从科研以及人才培养等方面来看,我们必须要与国际前沿接轨,我们的框架和平台应该是国际上最好的。做到这一条实际上非常困难。大数据研究主要是靠人才。如何吸引国内外的一流人才来北大,对我们而言是一个严峻的挑战。事实上不仅是国内,在国际范围内,由于市场尤其是互联网企业对大数据人才的需求很大,价码很高,使得学术界在人才竞争方面处于明显的弱势。即便是像普林斯顿大学、斯坦佛大学等美国的一流学校,也面临着大数据人才流失的问题。多年来,众多的企业和学校纷纷建立大数据中心,而北京大学一直迟迟不建立自己的大数据中心,就是因为我们一直在探索怎样有效地应对这个挑战。经过多年的探索和思考,我们才落实到目前北京大数据研究院这个框架。北京大数据研究院是在北京市的支持下打造世界一流的大数据教育、科研创新和成果转化的国际化平台,我们认为这个平台能够吸引一些最有才华,最有进取心的一流人才。

  当然,在这六年的时间里,很多学校都成立了各种各样的大数据研究中心,北大有些老师也很着急,但我觉得我们还是应该耐心,应该着眼于长远发展和核心利益。北大是全国的标杆,如果我们也把标准降低,也跟风,也做一些虚的面子工程,这对大数据在中国的发展将产生非常负面的影响。因此虽然有各种各样的压力,我们还是按照自己的计划稳扎稳打地开展工作。时间虽然长一些,但效果却是很好的。


记者:正如您刚刚提到的,目前中国有很多大学、科研机构、企业都在建立大数据中心,大数据在中国也成为一个了非常时髦的专业,那么您认为在中国发展大数据有哪些特点呢?


鄂维南院士:第一个特点就是中国的市场需求非常大,潜力非常大,政府等各方面都很重视,这也是我们最大的一个优势。

  第二个特点也是我们面临的主要困难,就是我们的人才非常缺乏,学科发展也比较落后。这种落后是多方面的,不仅是观念上的落后,还包括培养体系上的落后。举个例子,大数据分析涉及到的最重要的两块是统计和算法。而要让做统计的老师重视算法,让做算法的老师关注数据,这需要时间和努力。在数学学院,统计和算法是在两个不同的系。要让这两个系一起做事情,不是一件容易的事情。当然,这个问题不仅仅是北大有,这是全国范围的问题。

  还有一点要谈的就是有一些观念上的误区。很多人现在一提到大数据就想到Hadoop平台,对大数据的理解局限在数据库、数据中心等层面。诚然,这些都是大数据很重要的一面。但大数据更重要的,也恰恰是我们最缺乏的一方面就是数据分析:从数据里面获取信息、形成智慧。这个数据分析的过程,应该是大数据最重要的层面,也是我国现在的最薄弱的一面。应该说,跟全国其它高校相比,北大在这一方面还是处在领先地位,尽管这一直是,也仍然是我们最需要提升的方面。

  现在大数据研究面临着一哄而上的局面,很多做法实际上是在炒作,不是扎扎实实地做事情,这对大数据的发展很不利,以至于让很多人对大数据产生了怀疑,认为这就是一个炒作的概念。在这种形势下,北大更应该牢记我们开展大数据研究的定位,按照我们的办法来扎扎实实地做事情。


记者:鄂老师,大数据学科作为一门新兴的学科,与计算机、数学这些学科既有一定的联系,又有一定的区别,您能介绍一下大数据学科的特点吗?


鄂维南院士:在北大,很多学科都跟大数据有关,比如应用数学、计算机、统计、信息科学等等,大数据已经成为这些学科的重要发展方向。除此之外,现代医学,经济学,管理学,社会学,新闻传播学,生物学,天体物理学等学科也与大数据密切相关。在实际应用层面上,大数据涉及的领域十分广泛,比如金融、交通、移动互联网、医疗健康、工业大数据等等。可以说,大数据的发展是跟全校大多数学科的发展密切相关的。

  另一方面,作为一个学科,大数据有它的核心内容,比方说,数据的采集、传输、存储、数据分析等。它包括的方面也很广,很深,尤其是在非结构化数据方面:文本分析、视频分析、自然语言处理等都是很深的学问。

针对这些特点,北大也制定了有效的策略。一方面,我们明确了要按照跨学科的模式来发展大数据。学校层面上建立了由高松副校长牵头的大数据科学委员会,统一规划全校的大数据发展计划。北大大数据研究中心也是依靠前沿交叉学科研究院建立的。另一方面,大数据学科基础明确。所以我们必须要有一个核心平台来加强基础层面的发展,包括大数据学科的基础教育。


记者:从2012年建立新课程以来,我们北大在大数据学科的建设方面做了很多工作,您能简要介绍一下这些年取得的进展么?


鄂维南院士:首先要强调的是,这些年来,北大的各个相关院系都在开展各自的工作,也取得了很多进展。这里没法一一讨论。所以我主要谈谈学校范围的一些情况。北京大学最早在2012年开始建立全校范围的讨论班,社会调查中心、数学学院、信息科学技术学院、软件与微电子学院、生命科学学院等各个院系的老师聚集在一起进行讨论,取得了良好的效果。在课程设置方面,2013年我们做了一些基础工作,像数据科学的数学导引、复杂网络、大数据中的算法、统计计算这些核心课程开始设立,同时过去的相关课程也得到进一步加强。经过两年多的努力,北大的大数 454;课程设置已经相当不错了。我们成立了全校范围的大数据教学指导委员会,保证北大的教育保持比较高的、统一的标准,为全校制定了大数据研究生教学基本的要求,委员会在2014年向教育部申报了数据科学学术型的研究生教育项目。这就意味从2015年开始,北大可以正式招收大数据学科的学术型研究生。我们也完成了数据科学本科教学计划的设置。从2015年开始,元培学院、数学学院、信息科学技术学院的数据科学本科专业已经开始招生。


记者:在教学方面,我们近期有哪些发展规划呢?


鄂维南院士:一方面,我们需要把研究生的课程进一步加强,比如“数据科学导引”这门课,目前是面向数据科学专业学生开设的专业课,我们希望这门课能够成为面向全校学生开设的公共课。此外,数据分析领域的一些新的专业性课程也将逐步开设。另一方面就是大数据专业硕士的设置问题,这是面对市场需求的人才培养。这些年我们一直与企业界讨论这个问题,目前我们已经有一个比较详细的课程计划和培养方案。经过多年准备,与企业的沟通、教师队伍的建设,课程的设置都已经到位,现在还差一步,就是通过教育部将专业硕士的招生计划尽快落实。


记者:您刚刚谈到教学方面的规划,那么在科研方面,我们有哪些规划呢?


鄂维南院士: 在基础层面,要加强大数据算法、数据挖掘、文本分析、图像数据、视频数据、音频数据等方面的基础研究;在应用层面,也要加强交通、医疗、金融等领域的工作。我们要进一步在这些领域把北大已有的力量整合起来,形成合力。同时也要根据每个领域的特点,加强人才的引进,制定前瞻性的规划,或者加强和市场的联系。


编者按


相信通过鄂维南院士的介绍,大家对于北京大数据研究院以及数据科学交叉学科一定有了更为深入全面的了解。正如鄂院士所言,大数据学科是一门十分有潜力的学科,加强对大数据和该学科的建设顺应了时代发展的大潮流。

作为北京大数据研究院的核心研究力量,北京大学始终以更为严格的标准要求自己,务实进取,而不盲目从众。据悉,北京大学2016年数据科学方向的研究生推免工作正在开展,近50名优秀本科生将进入北京大学大数据中心深造。问渠那得清如许,为有源头活水来,相信在师生的共同努力下,北京大学的大数据学科将会与我国的大数据产业发展一齐欣欣向荣。