北 京 大 数 据 研 究 院
BEIJING INSTITUTE OF BIG DATA RESEARCH

鄂维南:探寻人工智能最本质问题,希望做到源头创新

本文转载自 DeepTech深科技知乎专栏文章:《探寻人工智能最本质问题,希望真正做到源头创新》


对于创新的定义,不同的人有不同的见解。创新常被比喻成“第一个吃螃蟹”,有的人想出了一种新的吃法,或许是创新;有的人将同一种吃法应用到不同的螃蟹上,或许也是创新。

但是,真正重要的创新是源头创新

鄂维南院士在第五届世界智能大会专题会——数字经济与人工智能教育高峰论坛曾说:“最困难的问题是不知道这个螃蟹能不能吃”。

“能不能吃”就是从源头去探索一件事物,并尝试发现它的价值。

作为当前最火热的赛道——人工智能,有许许多多的企业都走在创新的路上,也取得了很多成就。然而只有这家企业——墨奇科技做到了源头创新,史无前例地提出了“新型 AI 知识数据库”,能够在当前非结构化数据遍地的时代,做到真正的“大一统”。

“新型 AI 知识数据库”,可以把它理解为:把图像、视频、音频等非结构化数据开创性地以统一的方式表示,并具有储存、搜索、比对等能力。


1.jpg


从 2015 年至今,墨奇科技的“新型 AI 知识数据库”已经创建了一种新型数据框架,用于描述非结构化数据及 AI 知识数据;完成了小样本无监督自学习框架的突破,能够实现小样本进行无监督学习;搭建起了一套覆盖存储和搜索的异构分布式系统,并在指纹图像上成功地完成了技术和系统验证;实现了亿级图像数据的高精度秒级比对、识别与搜索,远远超过业内的相关技术和表现。同时,墨奇科技在商业化上已经建立了两个 10 亿级指纹中心,通过创新的自研数据库累计处理了数十亿的指纹数据

这些突破已经为业界带来了前所未有的体验,并将持续赋能AI数据挖掘,帮助更多的企业从非结构化数据中提炼内在价值,更快实现业务需求。

01
墨奇图像搜索系统

在理解这一数据框架之前,需要先了解非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。这一类数据最大特点是不规范,没有统一的规则能够提取它们的特征,并储存到数据库中直接调用。

随着 5G 时代的带来,非结构化数据将爆发式地增长,也给数据探索带来了一系列的困难。


2.jpg


各种非结构化数据间因为不同的特征和非统一的数据结构,导致需要的数据搜索和存储系统不同;适用的 AI 算法、调参不同;而产出的模型也不同,最终导致落地的 AI 应用更不相同。每一个 AI 只能实现一个单独的功能,如人脸识别、行为动作识别等,并不能通用,这也就是业界常说 AI 泛化瓶颈的问题。

以图像和音频为例,大量的研究发现,这两种格式的数据在底层的表达存在着某种关联和相似性,比如 CNN 卷积神经网络在图像的特征提取方面取得了较好的效果,对于音频也适用。

那么是否存在一种统一的方式能够“挖掘”和“采集”图像和音频数据,甚至是所有的非结构化数据呢?这将帮助整个 AI 行业突破 AI 泛化的瓶颈,让走入强人工智能时代成为可能。

墨奇科技正是围绕这一背景,突破性地从底层开始通过源头性的创新来解决。他们提出了新型数据框架,将不同类型的非结构的数据从基础的表示层转化为统一的二维表示,从而让非结构化数据可以如结构化的关系型数据般在系统中被存储、快速的调取和搜索查询。通过将这类数据转化成“传统的关系型数据”,能够很好地解决“一个 AI 对应一个功能”的问题,实现 AI 泛化,以及数据的共享化,最终做到“大一统”。

未来,相关企业或许不用关心数据形式和数据利用性能的问题,只专注于为用户提供最出色的体验。而这些都得利于墨奇科技提出的创新数据框架。

02
小样本无监督自学习框架

传统的无监督自学习框架虽然能够取得非常棒的效果,但是存在以下两个弊端:首先是数据集缺乏的问题,针对一些前沿科技的企业,比如医疗领域的心电、脑电等公开图像数据集较少,现有的数据集无法支撑起整个无监督自学习框架,传统的解决方法是通过图像增强、扭曲等的方式,人为地制造数据集,但过于麻烦也会对模型产生一些副作用;其次是针对一些比较容易收集的数据集,如指纹、面部信息等,在收集完之后仍然需要大量人力劳动进行整理和标注,成本较高。

墨奇科技无监督基于上述的创新数据框架,从源头出发成功地攻克了这一人工智能领域非常棘手的问题,即解决了无监督自学习框架对于数据的依赖,并将之称为小样本无监督自学习。他能够凭借较少的样本训练,来实现精确度极高的无监督自学习框架。

图片

这一方案解决了现有深度学习中让企业头痛的海量训练数据低效、高成本的标注问题。完成了上述的从数据表示层到系统层的创新,很好地加快了AI算法演进、迭代速度,解决了研发资源不足、落地难的问题,让广大中小企业能够轻松玩转 AI。
03
异构分布式系统
高精度秒级比对、识别与搜索

随着 5G 时代的到来,人们产生的数据将以指数级增加。传统中心化的系统会带来高成本、低效率的问题,因此如何恰当地储存和处理相关数据成为了非常重要的问题。同时深度学习技术的突破,掀起了新一轮的人工智能浪潮。AI 技术和市场在蓬勃发展的同时,对海量数据进行计算的需求也呈现指数级增长。

墨奇科技为了解决这一问题,提出了覆盖存储和搜索的异构分布式系统以及高精准度的秒级比对、识别与搜索功能。

以 20 亿级别的指纹图像数据集为例,我们需要在给定一张新的指纹图像的情况下,判断它是否在数据集中。传统的方法是依次提取每一张图像的特征,然后对特征进行距离计算,如:欧式距离、曼哈顿距离、海明距离等,若距离小于某一阈值,则说明两者表示相同的指纹。虽然我们可以采用 GPU 并行的方式来加速提取特征以及距离计算,但这仍消耗大量的资源,造成巨额成本。

墨奇科技提供的方法如下:
1.   在插入一张图片时,首先会将图片存储到分布式文件系统中,然后结合一些计算机视觉算法和深度学习模型对图像进行特征提取,图像的特征一般可以表示为向量或图。

2.   在提取出特征后,将特征均匀的分配到图像搜索服务器上,并在内存中建立索引。

3.   面对需要搜索图片时,先会图片经过特征提取服务器提取出特征,然后将这些特征发送至图像搜索服务器进行检索。

4.   检索主要分为 GPU 检索和 CPU 检索两个步骤:GPU 检索能够快速地筛选候选图片,然后再用 CPU 进行精确检索。

利用上述方法并结合“新型 AI 知识数据库”,墨奇科技既能保证速度,又能在指纹库容增大的时候,保持稳定性。

图片

墨奇科技 CEO 及联合创始人邰骋曾说过:“我们和大部分的创业公司都不太一样,我们甚至从创立墨奇前,关心的就是很长远的问题,也就是人工智能的机理。”

一直以来,墨奇科技也始终坚持探寻人工智能最本质的问题,真正做到源头创新。并不断将成功验证的技术路径以通用 AI 基础设施(新型 AI 知识数据库) 的形态提供给业界,从底层为全行业的 AI 应用带来技术革新和技术支持,让 AI 更简单、更强大,加速 AI 时代的智慧产业升级步伐。