豆包语音输入法MacOS版在经过了漫长的等待和一段时间的内测之后,终于正式发布了。

之前知道Mac OS版内测其实已经有一段时间了,不过当时看评论,连双拼输入法都还不支持,对于我这样小鹤双拼的重度用户来说,显然还过于琐碎。在GitHub上也看到过有那些复杂的桥接,可以使用原生的输入法,只是在语音输入的时候重新切换到豆包。不过那个我觉得也过于琐碎了,所以只是耐心等待。

这次的正式版安装之后还是非常高兴的,主要是两个点。

第一,终于支持双拼输入法了,不像之前的手机版,要过了好几个版本才开始支持双拼输入法。

第二就是在语音输入的快捷键上,除了传统的FN快捷键之外,非常贴心的支持了右Command长按作为语音输入,同时还可以双击右Control来启动,并再次双击后关闭。这个功能之前在千问发布的时候单独写过,我觉得这是一个对于像我们这样使用Mac OS,但并不使用原生妙控键盘或者是MacBook笔记本键盘的用户来说,最佳的一个实践了。毕竟我用的罗技K860键盘,它的FN键并不能被MacOS系统所识别。

image-20260512213045836

之前都说微信有着全中国最好的产品经理张小龙。但显然在微信电脑版支持语音输入的问题上,我并没有看到最好的表现。今天特地还测试了一下微信的Mac OS版。虽然可以将Command设置为语音输入的激活键,但是它并不能区分左右,所以一旦设置之后,所有跟Command键相关的功能都会出现问题,在这一点上,豆包直接支持右Command和右Control两个按钮,绝对好评。

当然,作为Mac OS版的第一个版本,还是有非常多的功能缺失。比如说,候选字的大小是调整不了的。比如说自定义词组也是没有的,账号同步也是没有的,但是这些功能慢慢的肯定也会加上,瑕不掩瑜。当一个语音输入法的准确率达到了压倒级的准确,一切小毛病我都可以慢慢的容忍。

今天在听张小珺播客《140. 对姚顺宇的4小时访谈:请允许我小疯一下!在Anthropic和Gemini训模型、技术预测、英雄主义已过去 - 张小珺Jùn|商业访谈录 | 小宇宙 - 听播客,上小宇宙》,姚顺宇在美国开发Gemini,他使用的国内模型并不多,对豆包的印象也就是语音输入。但是他给了豆包的语音输入非常高的评价。他说,如果谦虚的说,豆包语音输入是全球的最好之一,不谦虚就是最好。

我想用过豆包语音输入法的人,对这句话是会非常赞同的。

image-20260512212033278

在谈及大模型的开发有没有数据飞轮这个问题上,众说纷纭。

但我想至少在豆包语音输入这一块上,数据飞轮应该是存在的

为什么豆包的语音输入能够那么准?

一个不可忽视的因素就是字节拥有抖音这个全球最大的中文视频平台,而里面大量的视频是有字幕的。字幕和对应的音频本身就提供了绝佳的语音识别的语料。

更重要的是,字节还有剪映这样一个用户基础非常广的剪辑软件。当你用里面的语音识别制作字幕的时候,每一次你对AI识别的字幕进行修改、校对的时候,都相当于在给模型一个反馈。

在AI时代,这样的反馈是极为难得的。在普通Chatbox的交流中,至多用户会通过一个上下箭头的手段来给出对某一段回答是觉得好还是不好,但是哪里好哪里不好,模型是无法获得反馈的。但是在语音输入这个问题上通过剪映,字节确实可以获得精确到一个字的反馈。在有大量数据的积累和训练之下,语音识别功能越来越强大,这是一件甚至可以说理所当然的事情。

甚至我一直觉得,在手机上,豆包之所以可以用了一年多时间,后来居上,不仅是赶超Deepseek,甚至给了腾讯元宝非常压迫性的优势,输入法的准确性也是功不可没的。

至少就我个人而言,我在电脑上从来不用豆包提问,但是我在手机上的确只用豆包提问,这两个行为会如此的极端并矛盾,归根到底就在于,在电脑上我打开网页可以有非常多优秀的模型使用。而且我足够快的双拼输入也可以让我不用考虑输入的正确性,而是考虑回答的质量。

但是在手机上,很多时候是在外面打字不方便,甚至是需要快速地提问,这个时候豆包那个准得离谱的语音输入的确是一个离不开的方式。所以其实早在豆包APP的时代,我就在期待豆包会出一个语音输入法,没想到先是手机版,再是Mac OS版,的确是出来了。

在AI时代,许多人都认为语音输入法会成为人机交互新的入口。当然,这个的前提就是语音输入法得足够准,能够完全的理解人类的含义。否则我们在提示词工程之外,还得有错别字纠正工程,那跟大模型的交互就太累了。

这或许也是这两年语音输入法的应用越做越多,甚至连出了微信输入法,但一直都不舍得加上语音输入的腾讯,终于在有了豆包语音输入法的逼迫之后,在近期,在群众基础极广的微信PC版上也加上了语音输入的原因。

用过一段时间微信的语音输入,也最近用过千问的语音输入。但不得不说,只要有了豆包,其他的语音输入都黯然失色。

在这轮大模型竞赛中,字节不是一个存在感特别强的参与者。至少在基础的文字大模型上,国内有自己的“御三家”(Kimi、智谱、Minimax),再加上Deepseek和阿里,字节的模型存在感甚至可能比小米的MiMo都要弱一点。

但不可否认,字节却又是在大模型的模式探索上非常独特的一家。比如语音输入的数据飞轮,前面已经有过讨论。另外一个不可忽视的就是,Seedance 2.0文生视频模型的全球领先。

最关键的还不仅是这个模型的领先,而是这为字节的业务形成了一个非常强的闭环。

字节的短视频平台,包括传统的抖音和新款的红果,的确在变现能力上非常的强。作为流量的分发者,从投流业务中也能赚到不少的钱。但是在有了Seedance 2.0之后,字节不仅可以赚流量分配的钱,甚至连视频制作的钱都可以切入了。

最近关于短剧行业,从演员到摄像到化妆,许多工种濒临失业的冲击,其实也可以看到这种变迁,本来应该付给演员和服化道的钱,最后都流入了字节的文生视频营收中。

与此同时,因为视频制作的门槛下降,我们可以看到越来越多有意思的短剧出现。比如今年一度非常火红的关于西游后题材的漫剧**《菩提临世》**,这就是传统实拍时代无法制作的。虽然这部剧集后来突然下架了,但是它的现象级爆火至少说明了AI视频的强大。其实现在看红果短剧中,甚至连真人拍摄和AI短剧都已经不再区分了。

img

相信未来,奇幻、玄幻还有很多的机甲大科幻类的题材也是,依托AI的制作能力,可以以极低的成本制作出极具想象力的作品。

因为有了Seedance 2.0这样的模型,所以短视频或者说短剧的供应品类上更丰富,这也使得红果之类的平台吸引力更强。能够提供的流量分配和变现能力更强。

从这个角度说,豆包的大模型业务看起来可能在排行榜上或者在编程领域并不那么强,但是的确和豆包业务的互补性是非常的强——堪称业务飞轮。

相比之下,顺便我就觉得最近阿里千问打通购物这件事,其实是一个可以对照看的一个事件。

下面这张截图来自著名的互联网大V老师阑夕ོ的体验。从下面这张图可以看到,在避免购物智商税上,千问的确是发挥了应有的作用,但问题就在于,阿里巴巴的淘系平台作为一个广告流量分配是重要收入来源的平台,大模型指导购物的能力越强,或者说因此消费者变得越聪明,其实对这样的一个流量分配平台来说,并不是过于有利。或者我们都不用说这样的案例,仅仅是如果大模型具有看200个卖家进行综合比价的能力,能够为消费者挑出一个最合适的卖家。如果这件事情可以成真,那么对于阿里的流量分配显然就是一个重要的打击。

img

大模型的发展方向是否与原有的业务有协同互补效应,这其实是在观察巨头的大模型业务时,一个很有趣的问题。

在千问那里,大模型越聪明,或许淘宝流量分配的生意反而越难做。

在字节这里,大模型越强,视频供给越丰富,语音输入越准确,用户越离不开。

一个是左右互搏,一个是飞轮加速

这大概也是为什么,当我装上豆包语音输入法Mac版的那一刻,高兴之余,隐约还有一点别的感受——字节这家公司,比大模型排行榜上看到的要可怕。