专访蓦然认知：只有做得重一些，我们才能活下来_丹东新闻

丹东

切换城市

专访蓦然认知：只有做得重一些，我们才能活下来

2017-12-22

原标题：专访蓦然认知：只有做得重一些，我们才能活下来

在各家公司都在谈技术壁垒，聊垂直场景的当下，蓦然认知 CEO 戴帅湘的观点很明确——公司建立的真正壁垒绝对不仅仅是技术，而不仅仅是某个垂直场景，而是这个场景背后的产业链条。

1 年后，戴帅湘仍然不看好音箱市场。

虽然想以「语音理解」确立行业优势的蓦然认知早在年初推出一个名叫 Mor 的人机对话引擎时，就意在对标 Alexa 这类语音助手；而硬件，也被戴帅湘看作是技术优势最直观最靠谱的展现形式。

然而音箱，却没有在他们当下考虑的接入产品范畴里。

或许作为一名曾在百度任职 9 年的 NLP 科学家，他完全有能力带领团队在短时间内搭建出一整个基于多轮对话的技术框架；

但作为一家创业公司的 CEO，他首先考虑的，是要为公司找到一条能够存活下来，而且活得长久的业务模式。换句话说，就是如何将技术优势转化为一门可行的生意。

「你看亚马逊做云计算，BAT 也做云计算；亚马逊做音箱，BAT 也做音箱。对于阿里他们来说，follow 就够了，一个是风险小，市场有被验证过，另一方面他们也有足够的资本和精力去 follow。」

「但是」，他声音拔高了一度，「对于小公司来说，选择去 follow 音箱这种新兴的，产业链条都不清晰的硬件市场，不是找死吗？你做 2B 的业务也要找一个存量相对较大的 B 呀。」

这种思路使蓦然认知做出了一个在面对「将自身技术接入哪类硬件」时的必然选择：

电视与汽车，是他们率先切入的存量市场。

「以我自己的性格，我不会选择一个从未被验证的市场。或许卖点是有，但音箱有明确的销售渠道，有清晰的产业链条吗？虽然现阶段它可能有教育市场的意义，但这个新兴产业相对较轻，且存在太多不确定性。」

他认为，「让公司活的长久」的第一个条件，就是不能首先切入较轻的市场。

「我们也可以给一个移动 app，譬如猫眼电影，做语音对话系统，但是他们的链条实在太短了；做 2B 生意，靠这种『轻量级改造』，能赚到什么钱呢？」

「我认为，只有做的重一些，才能活下来。」

当下语音市场的痛点，是他们口中的技术优势

在当下较为活跃的语音商业化尝试中，有一个较为尴尬的真相：

语音识别已经相对成熟了，各家都在吹嘘的 96%~98% 识别率在市场中其实已经比较普遍了。但是它的下一步骤——语义理解，也就是建立在自然语言理解（NLP）基础上的交互模型。

用更通俗的表述来说，市面上所有音箱都有能力将这些模拟音频信号进行数字化处理（语音识别），但接下来的关键一步——对转化成本文的信息进行分析，然后「读懂」这些信息，进而对你的指令进行正确反馈的能力，才是当下解决智能硬件普遍存在「智障问题」的技术痛点。

而蓦然认和所强调的「技术门槛」，就集中在这一个「点」上。

举个例子，你可以跟这个名叫 Mor 的人机对话系统（小蓦）进行多轮连续对话（一般是在 5 轮以上，不需唤醒词）。

譬如「我想听周杰伦的歌」，「要近期的（歌）」，「冷门的（歌）」，这三个基于首个问题建立的需求，可以连续向系统提出，不需要反复喊出唤醒词。

此外，在创建一套完整常识知识表达机制的基础上，蓦然认知构建的机器推理模型能够满足跨内容维度的多轮对话。譬如：

问：「小蓦，深圳天气怎么样？」

答：「深圳今天天气…」

问：「那给我定张去北京的机票」

答：「好的，从深圳到北京的机票有……」

某种程度上，如果把「语音识别」比作机器的识字能力，那么语义理解就是衡量它们「智商」的标准。

但是，技术优势仅仅是技术优势。

从产品设计角度来说，无论是单一的语音交互界面（VUI），还是纯粹的图形交互界面（GUI，视觉），蓦然认知都不认为是一个智能硬件应该具备的最好用户体验形式。

「从人性化的角度来讲，图形界面更擅长在交互的操纵感和隐私保护发挥作用，这些也会同时体现在信息量和浏览效应上面。因此，VUI 的崛起并不是说要替换原来的其他交互方式，而是两者建立一个融合、共生的关系。」

产品经理杨平的这个观点也是蓦然认知选择切入电视市场的一个支撑点——因为电视的画面形态，以及在某些场景下对语音交互的必然诉求，是实现「GUI+VUI」用户体验的绝佳场景。

在这次语音引擎 Mor2.0 发布会上，现场用户体验通过电视大屏买买买

然而，在为电视厂商做语音交互界面的过程中，他们发现，这种混合场景中的语音交互系统的设计难度比纯语音场景难了不止一个等次。

「无论是技术架构，还是产品体验，都不是两种场景简单的叠加，你需要模拟出一个用户在拿着遥控器或不拿遥控器，看着电视画面和不看电视画面场景中，任何可能性习惯动作。」

他举了个例子，很久之前一位经验还不是很成熟的产品经理在跟研发设计人员一起讨论如何为某品牌电视的遥控指令做成语音时，提了这样一个需求：

我想给电视增加一个『语音说关机』。

但马上这个提议就被 UI 设计师批评了，因为他只考虑到了能不能做成语音交互，而完全忽略了电视机的使用场景。

「在遥控器上面，关机键和语音键就挨着，你按语音键说一声「关机」，然后电视收到指令再关机；但是那个物理按键就在那里，按一下就结束了呀，这个过程不就是多此一举的事情吗？」

杨平反复强调，在给厂商设计语音交互系统的时候，不能纯粹为了语音而语音。有时候，可视化的点击操作会比语音快方便很多。

因此，从消费级用户的体验角度考虑，他认为硬件厂商需要的不是某一个听起来很黑科技的交互，而是一个「更加自然，用户方根本不用 care 到底是语音还是视觉的交互」。

从点到面，用语音技术切入全生产链

首先，蓦然认知是一个典型的 2B2C 公司。也就是说，他要考虑的是能够为 B 端硬件提供点什么。

既然手中掌握着具备一定技术门槛的语音交互技术，那么这家公司的业务模式就很好理解了，简而言之，就是：

从点（NLP、知识图谱等技术）到面（完整语音解决方案），公司都能提供；从硬件生产链的某一环到这件产品的生命全周期，公司都要切入。

从第一点来看，这其实在语音创业公司中是一个并不少见的选择。而这样做的好处是，能够针对厂商的具体需求进行定制化语音改造。

换句话说，蓦然认知提供的「套餐」有大有小，他们把一套以语音交互技术为基础的界面化改造方案，分了好几层，完全取决于下游的客户需要什么。