鄂维南：探寻人工智能最本质问题，希望做到源头创新

本文转载自 DeepTech深科技知乎专栏文章：《探寻人工智能最本质问题，希望真正做到源头创新》

对于创新的定义，不同的人有不同的见解。创新常被比喻成“第一个吃螃蟹”，有的人想出了一种新的吃法，或许是创新；有的人将同一种吃法应用到不同的螃蟹上，或许也是创新。

但是，真正重要的创新是源头创新。

鄂维南院士在第五届世界智能大会专题会——数字经济与人工智能教育高峰论坛曾说：“最困难的问题是不知道这个螃蟹能不能吃”。

“能不能吃”就是从源头去探索一件事物，并尝试发现它的价值。

作为当前最火热的赛道——人工智能，有许许多多的企业都走在创新的路上，也取得了很多成就。然而只有这家企业——墨奇科技做到了源头创新，史无前例地提出了“新型 AI 知识数据库”，能够在当前非结构化数据遍地的时代，做到真正的“大一统”。

“新型 AI 知识数据库”，可以把它理解为：把图像、视频、音频等非结构化数据开创性地以统一的方式表示，并具有储存、搜索、比对等能力。

从 2015 年至今，墨奇科技的“新型 AI 知识数据库”已经创建了一种新型数据框架，用于描述非结构化数据及 AI 知识数据；完成了小样本无监督自学习框架的突破，能够实现小样本进行无监督学习；搭建起了一套覆盖存储和搜索的异构分布式系统，并在指纹图像上成功地完成了技术和系统验证；实现了亿级图像数据的高精度秒级比对、识别与搜索，远远超过业内的相关技术和表现。同时，墨奇科技在商业化上已经建立了两个 10 亿级指纹中心，通过创新的自研数据库累计处理了数十亿的指纹数据。

这些突破已经为业界带来了前所未有的体验，并将持续赋能AI数据挖掘，帮助更多的企业从非结构化数据中提炼内在价值，更快实现业务需求。

墨奇图像搜索系统

在理解这一数据框架之前，需要先了解非结构化数据。非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。这一类数据最大特点是不规范，没有统一的规则能够提取它们的特征，并储存到数据库中直接调用。

随着 5G 时代的带来，非结构化数据将爆发式地增长，也给数据探索带来了一系列的困难。

各种非结构化数据间因为不同的特征和非统一的数据结构，导致需要的数据搜索和存储系统不同；适用的 AI 算法、调参不同；而产出的模型也不同，最终导致落地的 AI 应用更不相同。每一个 AI 只能实现一个单独的功能，如人脸识别、行为动作识别等，并不能通用，这也就是业界常说 AI 泛化瓶颈的问题。

以图像和音频为例，大量的研究发现，这两种格式的数据在底层的表达存在着某种关联和相似性，比如 CNN 卷积神经网络在图像的特征提取方面取得了较好的效果，对于音频也适用。

那么是否存在一种统一的方式能够“挖掘”和“采集”图像和音频数据，甚至是所有的非结构化数据呢？这将帮助整个 AI 行业突破 AI 泛化的瓶颈，让走入强人工智能时代成为可能。

墨奇科技正是围绕这一背景，突破性地从底层开始通过源头性的创新来解决。他们提出了新型数据框架，将不同类型的非结构的数据从基础的表示层转化为统一的二维表示，从而让非结构化数据可以如结构化的关系型数据般在系统中被存储、快速的调取和搜索查询。通过将这类数据转化成“传统的关系型数据”，能够很好地解决“一个 AI 对应一个功能”的问题，实现 AI 泛化，以及数据的共享化，最终做到“大一统”。

未来，相关企业或许不用关心数据形式和数据利用性能的问题，只专注于为用户提供最出色的体验。而这些都得利于墨奇科技提出的创新数据框架。

小样本无监督自学习框架

传统的无监督自学习框架虽然能够取得非常棒的效果，但是存在以下两个弊端：首先是数据集缺乏的问题，针对一些前沿科技的企业，比如医疗领域的心电、脑电等公开图像数据集较少，现有的数据集无法支撑起整个无监督自学习框架，传统的解决方法是通过图像增强、扭曲等的方式，人为地制造数据集，但过于麻烦也会对模型产生一些副作用；其次是针对一些比较容易收集的数据集，如指纹、面部信息等，在收集完之后仍然需要大量人力劳动进行整理和标注，成本较高。

墨奇科技无监督基于上述的创新数据框架，从源头出发成功地攻克了这一人工智能领域非常棘手的问题，即解决了无监督自学习框架对于数据的依赖，并将之称为小样本无监督自学习。他能够凭借较少的样本训练，来实现精确度极高的无监督自学习框架。

这一方案解决了现有深度学习中让企业头痛的海量训练数据低效、高成本的标注问题。完成了上述的从数据表示层到系统层的创新，很好地加快了AI算法演进、迭代速度，解决了研发资源不足、落地难的问题，让广大中小企业能够轻松玩转 AI。

异构分布式系统

高精度秒级比对、识别与搜索

随着 5G 时代的到来，人们产生的数据将以指数级增加。传统中心化的系统会带来高成本、低效率的问题，因此如何恰当地储存和处理相关数据成为了非常重要的问题。同时深度学习技术的突破，掀起了新一轮的人工智能浪潮。AI 技术和市场在蓬勃发展的同时，对海量数据进行计算的需求也呈现指数级增长。

墨奇科技为了解决这一问题，提出了覆盖存储和搜索的异构分布式系统以及高精准度的秒级比对、识别与搜索功能。

以 20 亿级别的指纹图像数据集为例，我们需要在给定一张新的指纹图像的情况下，判断它是否在数据集中。传统的方法是依次提取每一张图像的特征，然后对特征进行距离计算，如：欧式距离、曼哈顿距离、海明距离等，若距离小于某一阈值，则说明两者表示相同的指纹。虽然我们可以采用 GPU 并行的方式来加速提取特征以及距离计算，但这仍消耗大量的资源，造成巨额成本。

墨奇科技提供的方法如下：

1. 在插入一张图片时，首先会将图片存储到分布式文件系统中，然后结合一些计算机视觉算法和深度学习模型对图像进行特征提取，图像的特征一般可以表示为向量或图。

2. 在提取出特征后，将特征均匀的分配到图像搜索服务器上，并在内存中建立索引。

3. 面对需要搜索图片时，先会图片经过特征提取服务器提取出特征，然后将这些特征发送至图像搜索服务器进行检索。

4. 检索主要分为 GPU 检索和 CPU 检索两个步骤：GPU 检索能够快速地筛选候选图片，然后再用 CPU 进行精确检索。

利用上述方法并结合“新型 AI 知识数据库”，墨奇科技既能保证速度，又能在指纹库容增大的时候，保持稳定性。

墨奇科技 CEO 及联合创始人邰骋曾说过：“我们和大部分的创业公司都不太一样，我们甚至从创立墨奇前，关心的就是很长远的问题，也就是人工智能的机理。”

一直以来，墨奇科技也始终坚持探寻人工智能最本质的问题，真正做到源头创新。并不断将成功验证的技术路径以通用 AI 基础设施（新型 AI 知识数据库）的形态提供给业界，从底层为全行业的 AI 应用带来技术革新和技术支持，让 AI 更简单、更强大，加速 AI 时代的智慧产业升级步伐。

上一篇鄂维南院士：传统科学才是人工智能更大的主战场

下一篇北京国家人工智能创新应用先导区建设正式启动，中国科学院院士、北京大数据研究院院长鄂维南在论坛发表主旨演讲

文章分类：对外活动