今年是记录“产品奇遇”的第五年(2024, 2023, 2022, 2021

回响

  • Midjourney, 今年基本没有使用 MJ 进行图像生成,兴趣都被 GPT 和 Nano Banana 这些掀起热潮的 preset style 或者强模型能力产品给带走了,希望 Midjourney 在明年在”世界模拟器“的方向上弄出些大动静。
  • AI Agent,从年初 Manus 初探通用型 Agent 的魅力,到年末终于有心思摸索了 Claude Code / Skills 这些更易于理解 Agent 能力与边界的产品,对于相关概念有了些理解,但还是有些模糊,明年还是要好好理解。

NotebookLM

这一年来 NotebookLM 扮演着 Google AI 产品先锋的角色,从启发同类产品形态的谈话式音频,到信息图、交互页面和视频概览,以及秋季令人惊艳的演示文稿。些不断迭代的功能特性也让 NotebookLM 成为了时下最受推崇的信息加工与学习平台。

你可以在大量 AI 产品中看到像 NotebookLM 这样管理文档输入与输出的理念,毕竟这里提及的每一项功能,单拎出来都是一个能打的产品。这

我对 NotebookLM 能力印象最深刻的是在某次讲座上,基于拍摄于讲座的几张文字幻灯,以及寥寥数语的笔记,就能够生成图文并茂的演示文稿,不仅主题脉络扎实,还补充了不少未被主讲人提及的细节。

经过组织与整理的碎片记录,呈现出更便于回顾与分享的结构信息,我想 NotebookLM 在将外部知识转换为个人能力方面能起到很大作用。

Gemini & Google Labs

Google AI 今年终于有了站在舞台中央的样子,从 Gemini 2.5 到年底的 Gemini 3,形成了模型能力与定价方面的多重优势。其他家的模型与产品或许在思考深度、风格与其他某些方面更受推崇,但确实也不好找到其他更均衡的产品,这也让 Gemini 在少部分拥趸以外,成为多数人的备选或兜底选择。

我一直很感兴趣的 Google Labs 也在不断地冒出新的实验性质产品,这些像是在内部 80/20 跑出来项目,都各自代表着一个经过一定程度验证的 AI 产品方向。

对于思绪敏锐的人,Labs 里较长时间处于 Waitlist 阶段的产品,以及上线了但还不是那么完善的产品,都是一窥行业趋势与建立优势的窗口。

AI IDE / TUI

过去这年,我想任何对 AI 感兴趣的人一定都尝试安装过一款 AI IDE 😁

像 Kiro 这样融合 Spec-driven(规范驱动)理念的产品,将行业惯常的结构化工程思维融入产品形态中,获得了不少好评。年底 Cursor 支持在应用中直接对着页面指哪改哪,让人们琢磨这下 Figma 会不会感受到压力。Google 的 Antigravity 的 Plan Mode 以及能够控制浏览器录制操作指引形成 Walkthrough 也是很贴心的能力。

与此同时,在以 Claude Code 为首的编程 Agegnt 热潮中,无论 Codex,Gemini,Droids,OpenCode 这些从终端中启用的工具,还是 Warp 这样衍化出文件树管理的终端产品,AI 模型执行文本动作方面的优势,和人们需要管理多 Agent 在工作过程中的授权、确认与验收方面的需求,让 TUI 交互形态也变得炙手可热,在越来越多的产品以及 AI 教程中出现。

Dia

如果 AI 浏览器的概念已经成熟,今年可以看作是 AI 浏览器元年?从 Dia,Comet 到 OpenAI 的 ChatGPT Atlas,还有 Fellou 这样深度集成 AI 能力的新产品,和Chrome,Edge,Opera,Brave 这些不同程度添加 AI 能力的老面孔。

究竟是 AI 浏览器,还是浏览器+AI,可能还有人会饶有兴致地讨论一下,也或许不是一个真正的问题:每个人肯定都有在使用浏览器中应用AI能力的独特用法。

我现在通常时候会使用 Dia,有大约 40% 的因素是我期待它在近期能够将 Arc 的大量创新功能无缝融入。AI 部分 Dia 当前基本够用,但对比一年前可以称得上是没什么进展,不过产品整体体验还是有优势。

Chrome 是工作中切换多 Profile 的好帮手,如今添加 Gemini 快捷入口后唤起 AI 对话更方便了,也从其他新鲜浏览器产品中借鉴了不少新特性,或许在新一年值得更多期待?

AI 语音输入

今年前前后后使用了许多不同的 AI 语音输入法,包括Wispr Flow,Typeless,闪电说等,体感确实比手打舒服多了。在语音模型的加持下,如今的语音输入法不但转换速度快,识别度高,有的应用还能够帮助将口癖和语言习惯自动整理成更加流畅的文本。

除了在平时在工位上使用不太方便之外,在其他时候我都尽可能地使用语音输入来记录一闪而过的想法和片段思考来帮助自己更快速地录入文本。

有意思的是这些 AI 语音输入法在 Mac 端的应用看着大同小异,结构、样式和使用体验上的趋同让它们看起来像是从一个模子刻出来的。

在模型基座大差不差的前提下,识别速度、准确度、个性化能力以及定价,是这些产品之间产生差异的地方。从这方面出发,我现在交替着使用 Typeless 和闪电说,前者识别精准,后者速度和可定制化程度高。

鼠须管

语音输入之外,今年下半年我重新启用了基于开源 RIME 框架的 “鼠须管”输入法(Windows 版本名称“小狼毫”也非常悦耳),主要几个原因:

  1. 配置自由:定制化程度高,能够通过不同的配置方式满足输入习惯,打造出属于自己的输入法。
  2. 体验出色:轻便快捷,使用中没有出现任何兼容卡顿的问题,完全达到我对输入法的预期。
  3. 有粤拼配置:最近开始练粤拼,鼠须管已有数量可观的输入方案,切换不同输入配置很趁手。

飞书智能纪要

工作缘故,今年在近 200 小时的会议中开启了飞书智能纪要,总体来说很满意,部分能力超出预期。从最初基于会议录音进行 AI 总结生成纯文文内容,到后期已经能够直接生成甘特图、日程图、任务表等非常直观的展示形式来呈现会议内容,并记录和推导相关后续工作。

对于已经在使用飞书的人,可以结合飞书知识库相关文档作为上下文来实现更深层次的信息解读,智能纪要就是那个必备工具。

但 AI 助力的智能纪要还需解决的一个问题是纪要效力背书。对那些对纪要有特别要求或需要解读潜台词的会议,AI 还不太能够帮助解决问题。

另外就是智能纪要在飞书里是独立定价的,而当前定价(69元/月)在我看来还是贵且不太灵活的,比如不支持单次会议开启,也没有更短期的订购。


明年一定

惯例立些 flag,明年也有许多想尝试的方向:

  1. 音乐。怎么印象中我一直希望搞点什么音乐呢?希望明年能记录一些不仅是标记听歌记录的音乐行为记录。

  2. 优化信息处理流程。去年感觉有些信息过载,明年计划完善信息摄入与处理流程,有的放矢,目的性地管理资讯、阅读到理解和输入的过程。

  3. 健康。这年也是身体指标与感受波动的一年,好在年末调理得不错,脑子也清爽多了。人生开启又一个十年,感觉挺有信心的 ☺️

(完)