Category: AI

设计 | Humane AI Pin,Beam me up 还是 Talk to the hand?

今天 Humane 正式发布了超酷的 Humane AI Pin / AI 智能胸针,精神上实现了 Star Trek / 星际迷航里的通讯胸针,这算是三录仪、平板电脑之后,又一个成为现实的 Star Trek 技术😂 我从 Humane 的产品发布视频里,剪辑了一段和人机交互有关的部分,从 UX 设计特别是交互设计的角度说几句这个跨时代的创新设计。 1,自然语言交互 这是整个产品里最具竞争力的部分,也难怪微软、OpanAI 的 Sam Altman 都投资了 Humane。 视频里的 AI 回答错了,下一次日全食应该是 2024 年 1 月 8 日而不是 4 月 8 日,这也代表了目前 ChatGPT 等 LLM AI 在产品设计层面的固有障碍:用户和 AI 都无法判断输出结果的准确性。解决这个障碍的能力在 OpenAI 等等 AI 公司手上,设计对此无能为力。 2,语音交互 语音、自然语言和 LLM AI 是天然的最佳搭配,如果说以前问 Siri 就像是问一个私人助理,那么以后凡事问 ChatGPT 基本上就是问全人类的集体智慧。 但脱离纯个人的电脑和手机,到了在公共场合、社交场合佩戴可穿戴设备的这种使用场景里,语音交互的感觉就不那么自然了。 Humane Ai Pin 呼出 AI 的方式很有意思,刻意设计得特别保守,用户需要用手指按压胸针。这避免了Siri 们一直悄悄地听你呼唤的尴尬,也避免了“小爱同学”总是莫名其妙自动搭话的戏精“人格”。 3,激光投影 UI 技术上这很神奇,居然能在那么薄的设备里集成一个亮度不低的激光投影仪。 不过从演示视频来看,因为手掌不平整、手掌会自然地晃动、手掌角度和眼睛观看角度不会很理想,激光投影的显示效果一般般。因此 Humane AI Pin 的激光投影只能像传统 HUD 那样,在 UI 里用很简洁的方式、显示很少量的信息。 按照 Humane AI Pin 这个“摆脱手机依赖”的产品定位,像 HUD 一样显示极简信息可能反而是一大优点。但以后的类似设备得想想清楚:手不是一个好显示器。 另外,我用 pretotype(注2)的方式模拟测试了激光投影的体感、手感,说实话我很不喜欢举着手掌、低头斜眼看自己手掌的这个交互动作,举着手掌很累,低头斜眼很不舒服。我没把我低头斜眼的姿势和动作拍下来,可以想想,那个造型和表情都不会太好看。 4,手势交互 哈哈这个不用多想了,我从来记不住手势,我连用了 20 多年的 Photoshop,都记不清几个快捷键。 也有人觉得弯曲手指、捏手指的动作很别扭,我手指比较灵活,这方面没有障碍。 从 Humane 的演示视频里看不出 AI Pin 有多少日常操作仅仅依赖手势这一种操作方式,也不清楚有没有其他替代方案来解决不方便手势操作的场景(比如冬天带了肥厚的手套)。好在今天的视觉识别已经很强大了,手势操作肯定会成为人机交互的新常态。 Humane 的愿景是设计一套全新的、不依赖手机屏幕的操作系统,所以未来 Humane AI Pin 在操作系统和 APP 这两级,都会使用手势来实现交互 – 我对操作系统级别的手势没什么意见,但我绝对不相信那些缺心眼安卓程序员瞎折腾出来的手势。 ok,记忆各种手势的任务,还是留给生下来就要天天使用手势交互的下一代人类吧。以后他们用手势交互,就跟意大利用手指说话一样自然。 5,隐私性和私密性 Humane Ai Pin 显然记住了谷歌眼镜早年的悲剧,它用很明显的 LED 亮光显示工作状态,以此来提醒周围的人:我没有偷拍哦!我没有偷偷录音哦! 不过如前面所说,在公共场合、社交场合使用 Humane Ai Pin 主打的语音交互,天然地无法保护隐私、隐秘。这方面我完全相信人类偷懒的天性和强大的适应能力,以后很快会有一种多数人都能接受的公共场合、社交场合语音交互礼仪。 btw,因为语音交互的不断普及,我们能在公司里、学校里、小区里听到更多别人的隐私,这还的确符合人类好奇、八卦的天性。 6,摆脱对智能手机的依赖 为什么 Humane Ai Pin 是独立设备而不是一个手机配件,这是我对它最好奇的地方。 类比一下,苹果 Vision Pro 眼镜是个巨大的、布满了传感器、CPU 和 MacBook Pro 一样强大的 VR/AR 眼镜,运行一整套改变世界的“空间计算”系统…我可以理解苹果把它设计成不依赖电脑的独立设备。 在几十克的胸针里集成一部完整的电脑,why 啊?(注3) Sam Altman 接受 The Wall Street Journal 记者采访时说过,他们在尝试用新的硬件形态来发挥 AI 的作用(大意,我记不清原话了)。 这么说的话,Humane Ai Pin 作为独立存在的胸针,应该只是一种早期的 AI 产品形态,估计很快能出现为 AI 和自然语言交互、语音交互优化的 AI 耳机、AI 手镯、AI 戒指、AI 纹身、AI 成人玩具…… 围绕 AI 的 UX 设计刚刚开始 只看演示视频,Humane AI Pin 的 AI 已经部分实现了 Star Trek 里“Beam me up, Scotty”的效果。 但说到人机交互和使用体验,它酷炫的人机交互之下,使用体验似乎更像“Terminator 3”里施瓦辛格伸着手说“Talk to the hand”(注4)。 Humane 的这些设计问题将来都可以解决,类比一下, iPhone 也不是一蹴而就,技术、产品形态、交互方法、用户的使用习惯、公众的文化认同…也都经过了多年才不断完善。 也许等到 Humane AI Pin 3.0 版,围绕

设计 | 为什么用户会把 ChatGPT 当搜索引擎?

ChatGPT 流行之后,越来越多的人把 ChatgPT 当做搜索引擎来使用。本文从产品设计角度,解释这个现象背后的原因,以及它对产品设计的影响。 我以前有外号叫“人头Google脑”,手机能上网之前我就有“立刻Google一下”的名声,而且我还“代客 Google”帮人搜索💪 某次在南锣鼓巷,某路人盯着电线杆喃喃自语:你说电线杆顶上那个橙色小风车是干嘛用的?我琢磨好久也没想明白。 那位长了一张自视甚高的知识分子脸,一看就是网上什么话题他都要驳斥的那种。他当时还斜着眼睛瞟我,不知道算是自问还是设问还是挑战我。 我随口回答:为了驱鸟。 他就震惊了😆 关键词搜索 vs 自然语言提问 并非我牛逼,其实是因为我以前 Google 过这个“小风车”问题。 谷歌为代表的传统搜索引擎以搜索关键词为基础,当时(200X年)它很难理解“电线杆上会转的小风车是干嘛用的?”这种句子,所以我用不同方法搜了好几次,才得到结果。 之所以我利用搜索引擎的能力远超一般人,因为我理解搜索引擎的工作原理,因此搜索时能熟练而高效地选择合适的关键词,并用 Google 的搜索语法来提高搜索质量。比如我用 Google 来搜索这个电线杆上的小风车,搜索关键词大约是:电线杆 橙色 镜子 风车 -发电。 相反,一般人缺乏电脑常识,下意识地会用问问题的方式使用搜索引擎。如果你直接问谷歌“电线杆上会转的小风车是干嘛用的?”这种自然语句的长问题,多数情况下谷歌并不理解你到底在问什么,所以它会把你的句子拆分成关键词、再去搜索。这么搜索出来的结果往往过于宽泛,让人非常失望。 ChaGPT 这种基于 LLM 大数据模型的 AI,一大特色就是能够理解用户的提问: 这种自然语言式的提问,这种基于对话的互动方式,都为用户带来极大便利,自然会被用户追捧。 罗列几十页结果 vs 直接给出答案 为什么很多人抛弃了谷歌、百度,而改成在小红书上提问?或者发推文问“万能的推特”? 因为小红书和推特给出的结果很少,要么随便翻翻就看到了、要么直接就回答了问题。这种直接了当避免了大量的体力活,像百度、谷歌那种动辄几十、几百页答案,看着就晕,而且每个答案还得点开看网页,才有可能找到答案。 这就凸显了 ChatGPT 另一个深受喜爱的特点:直接给出答案,没有百度、谷歌那么复杂而漫长的搜索过程。 今天的百度、谷歌会在搜索结果页里先列出一个优选答案,早年流行的 Siri、Alexa、小爱同学之类的 AI 语音助理,接受提问时也能直接给出一个答案。不过它们的智能水平相对有限,给出的答案看起来不是那么可信。 相对的可信 vs 假装的可信 今天我们可以随意向 ChatGPT 问“这个”小风车”问题,它会瞬间给出一堆看似正确的答案。 其实狗屁! 它不知道那个小风车是什么。 既然 GPT-4 已经发布了几个月(这在 LLM 的 AI 世界里差不多等于上世纪吧?),我顺便也来测试一下 GPT-4 怎么回答这个“小风车”问题。 它的回答有时候似乎很正常(图一),有时候似乎不正常(图二),有时候似乎极其正常(图三、图四)。如果我预先不知道正确答案,我会认为它们说得都很有道理! ChatGPT 刚开始流行时,很多段子的主题都是 ChatGPT 不切实际的盲目自信,以及立刻认错、立刻改口、继续扯淡的搞笑“人格”。但随着 ChatGPT 用户越来越多,反而有更多人盲目信赖 ChatGPT、不再抱怨它的准确性。 有各种研究文章讨论这种现象,这里就不展开讨论了。用普通话简述一下,我们轻信 ChatGPT 的原因大概有几种: ChatGPT “搜索”能力对产品设计的影响 ChatGPT 等 LLM 大语言模型 AI 都善于“搜索”和回答问题,简述一下这种能力对产品设计的影响,以及应对思路。 ChatGPT 们改变了“搜索”的产品设计 Bing 已经整合了 ChatGPT,既能用 ChatGPT 把用户的自然语言提问转化为搜索关键词、优化搜索引擎的输入,也能用自然语言描述更直接、更人性化的搜索结果,这优化了搜索结果的输出,当然 Bing 还能直接使用 ChatGPT 回答用户问题、把搜索引擎作为参考资料。 今后的搜索体验,会越来越多地结合 ChatGPT 们的自然语言交互能力和直接回答问题的能力。这种体验不限于搜索引擎以及知识库、问答、客服等等以搜索为主的产品,普通的产品中也会集成 ChatGPT 或者专用 LLM 模型,利用它们更好地与用户交互、更有效地输出结果。 特别是语音识别和语音合成技术的效果越来越好,理论上每个软件、APP、网站都可以自带一个高智商的 Siri,无论是实现基本产品功能,还是额外地增加营销、客服功能,这些新一代的 Siri 都能改善产品的整体使用体验。 现阶段“多模态”的 LLM 大语言模型还没有普及,按照现在的 AI 模型发展速度来推理,ChatGPT 们很快能普及搜索图片、语音、视频的能力,这又是另一个维度的可能性。 ChatGPT 干掉了 Stack Overflow 等人工回答 Stack Overflow、Quora 以及知乎这样的知识分享社区、问答社区,由用户来回答用户的问题。ChatGPT 这样的大语言模型对这类网站造成了极大的冲击。 以程序员问答社区 Stack Overflow 为例,按照 Business Insider 引用 Stack Overflow 自己的数据,2023 年四月,Stack Overflow 的流量相比 2022 年同期下降了 13%(来源)。这是不是预示着人类回答的消退? 既是也不是。 一方面,各个垂直领域的专业人士、比如像我这样的的设计专家,或者生活中的达人、比如我这样的“人头Google脑”式的智慧达人,这些人的智慧并不会被 ChatGPT 削弱。相反,这些专家和达人能利用 ChatGPT 来强化自己的知识检索、整理和输出能力。 ChatGPT 替代的是泛泛的、针对性不强的回答。 另一方面,ChatGPT 强大无比的撰写能力、创造能力,以及超出大多数人的语言组织能力、表达能力,让普通人也能创造出看似专业的内容。这些制造出来的劣质内容会直接拉低 Stack Overflow、Quora 以及知乎的内容质量。 知乎推出了 AI 写作工具,那么知乎内部有没有对等的 AI 防作弊工具、AI 内容过滤工具?这种评判,可不是雇佣一堆数据标注工人就能搞定的。 规避 ChatGPT 可信度的问题 ChatGPT 在不同领域回答问题的可信度不一而论,整体而言,现阶段 ChatGPT 的回答属于看似靠谱、其实并不靠谱。 用户对 AI 产品的态度也各不相同,比如: 包括 OpenAI 在内的 AI 专业人士,已经提出了多种提高 ChatGPT 准确性的方法。普通用户也能通过更好的 prompt,来从 ChatGPT 获取更准确的回答。 从产品设计角度而言,怎么向用户展示 ChatGPT 等 AI 的可信度,直接影响了用户体验和用户对产品、对品牌的信任度。最底线的做法是:在 AI 准确度、可信度的问题上,也许你可以某种形式地误导用户,但绝对不要欺骗用户。 我相信 AI 的发展速度,一直会优于人类搜索信息能力的进化速度,只要借助 AI 工具,以后菜场大妈也能立刻回答“电线杆上会转的小风车是干嘛用的?”。 这种随时随地准确获取信息的能力,将成为以后人类的基本功能😂

设计 | 把 iPhone 自带的 iMessage 变成 ChatGPT

不用下载 APP、不用注册密码、直接在 iPhone 里使用 ChatGPT 是什么体验? 整体设计 以前专门介绍过,怎么在 iOS、Android 的全局层面使用 ChatGPT。当时的方案需要下载 APP、安装一个特殊的 ChatGPT 键盘,而后在 iOS 里各种输入框里呼出 ChatGPT 键盘、进行 ChatGPT 操作。略微有点繁琐,键盘区的人机交互也有点怪异。 现在有了一个简单而优雅的神奇方案:把 iOS 自带的 iMessage 消息,直接变成 ChatGPT 客户端! 使用方法超简单:打开 iMessage,给 [email protected] “这个人”随便发一条消息,它其实就是 TextGPT 提供的 ChatGPT 聊天机器人。它会简单介绍注意事项,然后就可以开始试用 ChatGPT 咯。 拿到各种 AI 工具,我都要测试一下。那我先来问问它:有什么经典的 UX 设计书籍可推荐的? 它和 ChatGPT 一样等了几秒返回了答案,我一看……这个答案明显就是胡说八道啊!幸亏这些书我都看过,否则明明被它蒙蔽、我还得感谢它! 不过我又仔细看了一下,发现它给出的答案其实属于驴头不对马嘴,基本信息其实基本是正确的,但是不知道为什么把书名、书籍介绍和作者姓名等信息错位了。 OK,那我就用我“多年”和 ChatGPT 战斗的经验再试一次 – 如果遇到莫名其妙的问题,那就换成英文,把刚才的问题重新问一次。 第二次用英文询问之后,它给我返回的结果很正常。谢谢! 接着第二组测试,我得判断一下这个用 iMessage 对话的 ChatGPT 智商怎么样。 我来问一个菜谱吧:教我做一道法国大餐鱼香肉丝丸子汤吧!merci!(see,我也会说一两句法语) 结果它居然没有一本正经地胡说八道,而是一本正经地纠正了我问题里的错误,不但告诉我“鱼香肉丝”是中国菜,还教我怎么做“法国肉丸子汤”! 智商超出了我的预期! 而且我还真琢磨了一下法国肉丸子汤的做法,看起来没什么不正常的,除了跟我预期的法国菜不太一样,做法本身没什么问题。而且做法似乎很简单,也许哪天我可以真的来做一个,试试法国肉丸子汤的感觉。这次真要跟 iMessage 里面的 ChatGPT 说 merci 了。 解决了什么问题 TextGPT 的使用 iMessage 作为 ChatGPT 客户端的方法非常巧妙: 无门槛:既不用下载 APP、不用注册密码、直接就能在 iPhone 里使用 ChatGPT。 无学习成本:因为 iMessage 是 iPhone 自带的 APP,无论男女老少都会用它聊天,平时怎么跟人聊天、以后就怎么跟 ChatGPT 聊天,依靠 ChatGPT 带来自然语言交互能力,完全无缝衔接了以往和人聊天的体验。 天然可扩展:iMessage 天然是富媒体的,按照 LLM 大模型 AI 时代的说法就是“多模态”,它可以轻松支持文字、图片、音频、视频。还研究什么接入 Siri 啊,Siri 已经在 iMessage 里服务了“一万年”了。即便是以后苹果在 AR 眼镜上再次创造新的交互体验,利用 iMessage 把 ChatGPT 和 AR 打通也毫无阻力。 怎么改进设计 TextGPT 这种基于 iMessage 的人机交互模式当然也有缺点。 1,不支持多个对话 最明显的缺陷就是每次只能和同一个机器人对话,缺失了一层信息架构、不支持多个对话,用户就不能为机器人指定多个固定身份(你是一位翻译、你是一位情感专家、你是一位投资高手……),无法在每个对话里解决特定问题……这就无法更有效地利用 ChatGPT 的潜力来回答问题了。 当然,这个信息架构只有一层的问题,理论上也可以解决,比如给用户分配一个新机器人,或者新建一个群聊……等等等等。 2,不支持 Stream mode 基于 iMessage 实现 ChatGPT 的人机交互,另外一个缺点是不支持 Stream mode,即不能一个字一个字输出结果,只能干等几秒、十几秒才能得到结果(感谢 @MasterDang 的提醒)。 这个缺陷骨子里还是因为 ChatGPT 本身太慢,无法彻底解决,比较实际的 UX 设计方法是为系统增加提示,即在标准的 ChatGPT 对话之外,增加自然语言的对话、台词、提示语,来提醒和安抚用户耐心等待、避免焦虑。 3,不支持长期记忆(已解决) ChatGPT 可以支持上下文、支持短期记忆,而 TextGPT 原本不支持记忆。之后开发者用向量存储 、langchain、embedding 等技术,自行实现了对话的长期记忆(开发者的说明)。 相信这个设计模式,很快会被其他开发者和厂商学习,成为 ChatGPT 带来自然语言交互能力后的新人机交互标准。

设计 | 用 GPT 代替 HR 小姐姐读简历

解决了什么问题 大公司 HR 经常一天处理成百上千份简历,每份简历只能扫一眼,很容易漏掉信息。 这个 Resume-GPT 工具用 GPT 来阅读 pdf 格式的简历,并把简历内容标准化,自动从简历中抽取出有用的信息,输出为方便电脑程序处理的 YAML 格式…下一步就可以用程序分拣、分析、推荐标准化之后的简历了。 https://resume-gpt-html.onrender.com GPT 加持的工具可以高效、有效地筛选出简历中所有有用的信息,而人类眼睛只能看到什么算什么,效率和准确性都没有保证,所以在初步筛选阶段,AI 读简历的效果大概率会比真人 HR 还好🙄 而 Resume-GPT 展示了 GPT 这类 AI 的一大特长:从非标准结构/非标准组织形式的信息里,整理和筛选出标准化的信息。 比如用户调研,总有很多基于用户主观感受的资料,用户用自己的语言来描述遇到的问题、潜在的需求。以往需要大量人力去二次处理这些非标准的原始信息,再手工筛选出有用的信息,现在可以用 AI 来自动识别出其中有价值的信息。 比如市场部和产品部都有用户调研,双方资料记录了不同的字段,形式上也出现了视频、文字、调查表格混杂的情况,AI 就很适合在这里抽取双方资料中有用的部分,再整合成一个综合的新资料。 这里的想象空间几乎是无限的,GPT 把数据标准化的能力,能把原始资料的利用率,提升到一个新高度。

设计 | 怎么用 AI 打破回音壁、突破信息茧房

前两年 Netflix 纪录片“监视资本主义:智能陷阱 / The Social Dilemma”大热,引发了对推荐算法、“信息茧房”的大讨论。而后和所有热门讨论一样,很快所有人就忘了,重新回到舒适而充满刺激的信息茧房里。MIT 的研究生开发了这个软件,利用 AI 来帮大家对抗推荐算法……它能成功吗? RecAlign(Recommendation Alignment) 是一个 Chrome 浏览器插件(在这里下载),它利用 OpenAI 的 GPT 来帮你过滤推特、知乎上系统推荐的信息。它也是开源项目,这是 GitHub 上的项目页面。 插件还在验证概念的极早期,所以功能、用法都很简单:你用自然语言描述过滤标准,即自己不想看什么内容 – 插件利用 GPT 理解你的要求、生成过滤条件,下次你刷新推特或者知乎时,插件会自动隐藏那些不符合你过滤标准的信息。 RecAlign 插件的开发者是 MIT 麻省理工学院的研究生,他为插件提供了推特、知乎两个过滤器。我每天频繁使用推特,当然就用推特来做测试。 既然 RecAlign 背后的 AI 就是我们熟悉的 GPT、ChatGPT,我就按 ChatGPT 设置 Prompt 的标准来设置条件。我设置的过滤条件是“只看设计和AI相关的tweets,不要看AI生成的图片”。理论上这前半句很符合 ChatGPT 的要求,应该能 RecAlign 能力的最优表现;后半句对 ChatGPT 而言有点似是而非,我猜 RecAlign 可能未必能理解。 先测试“只看设计和AI相关的tweets”,过滤效果非常好(尤其是相对于这么早期、概念性、实验性的工具而言),果然和设计、AI 无关的大部分推文都被隐藏了。 测试下来最明显的缺点是过滤和隐藏推文的速度较慢,考虑到推特的 feed 是实时的、没什么方法提前过滤,而插件逐条读取推文、判断是否满足过滤条件,这个过程也不容易加速……这种用户体验的问题就留给产品化阶段的设计师和程序员吧。 测试“不要看AI生成的图片”的过程比较好笑,我拿曾经最可爱、现在变成“触目惊心”的 Stable Diffusion 插件 Waifu Diffusion 来作为测试基准,看看 RecAlign 能否把这些明显包含了 AI 生成的图片的推文过滤掉。 实际测试下来,多数情况 AI 图片推文都幸存了,只有某一次 RecAlign 展示了对话框提醒我:这真是你研究所需的吗?(原文是英文,这是大意,一闪而过我没记下来)。结果和我之前猜测的差不多,我想主要还是因为我设定的过滤条件 / prompt 太含糊了。 如果平时不上推特,那么大家也可以拿知乎来测试这个 RecAlign 信息过滤插件。 解决了什么问题 RecAlign 表面上的定义是对抗推荐算法,帮大家打破“信息茧房”。不过这只是一个使用案例,从产品设计角度来看,RecAlign 展示了用 AI 帮助用户过滤数据的能力。 一方面它利用 GPT、ChatGPT 的自然语言能力理解用户相对模糊的过滤条件 以往的过滤条件大多很刻板、机械,比如按时间排序、按地区推荐我周围的人、按我主要的兴趣推荐信息,每次用户得打很多勾、选择很多选项,不但操作起来很麻烦,而且天知道那些黑心产品经理和程序员列举的那些“过滤条件”到底是什么意思。相比之下,用户使用 GPT、ChatGPT 和背后的 LLM 大数据模型来设置模糊的过滤条件,AI 能把含糊的感觉转换为过滤条件,这个过程不需要用户参与。 多数情况下,用户并不清楚自己将要检索、筛选、过滤的系统,通过自然语言一轮一轮询问的方式,可以帮助用户确定检索、筛选、过滤的条件。比如你去图书馆,你哪里知道里面有什么、没有什么、什么更好、什么就是垃圾?如果有亲切热情的图书馆管理员/亲切热情的 AI 可以咨询一下,这个问题会简单一两个数量级。 另一方面,基于 AI 的智能过滤,适应各种重视用户体验的场景 只看“对抗推荐算法”的案例,这种支持模糊条件的智能过滤似乎用处不大,实际上它可以用在各种场景。 比如我热爱学习,希望在推特上跟真正的创造者、有识之士学习,那么我可以用智能过滤筛选推特用户。这么操作能从推文的上一级开始过滤,从根子上就把不合适的人都干掉。 比如我想找一找最新的英文 UX 设计类书籍,以前我要么去卖书、读书网站搜索,要么去推特看优秀设计师的推荐…都挺累。以后我可以直说:我想看最近一两年出版的英文 UX 设计书籍,优先推荐被很多推特上优秀设计师推荐的书籍。 又比如我想买新的咖啡,我是问“我想喝比星巴克拿铁苦一点点的咖啡”、还是问“我想喝某某产地、某某品种的某某咖啡豆”?显然前者简单得多。 AI 带来的这些简单、便利,会让提升那些我们熟视无睹场景的用户体验。 毕竟我们每个人都是某种“选择困难症”患者,能帮我们做出选择的……都是好工具。 产品设计想象空间 RecAlign 属于验证概念的作品,并非实际的工具或者产品,就不具体分析怎么改进它的设计了。 下面还是说说未来的产品设计 – 如果设计类似的、通过 AI 过滤信息的产品,应该注意什么、建议怎么优化设计、还能创造出哪些更好的产品。(注:只说设计策略,不聊具体的设计方法) AI 更适合过滤还是推荐 过滤是做减法、推荐是做加法,通常过滤比推荐困难得多。 现在的推荐算法之所以那么有效,程序和算法的效率只是次要因素,推荐更多地依赖现代心理学、社会学、认知科学对人性的理解。通俗一点说,我们每个人都贪心、都害怕错失,这些欲望和饥饿、恐惧、繁衍下一代一样,都是经过几百万年进化、被印刻在每个人大脑深处的本能。只靠后天的过滤,其实很难抵抗这种本能。 我想正常的有商业目的的人,都会利用 AI 去继续提高推荐的效率,并用 ChatGPT 自然语言交互的能力,让推荐结果看起来更友好、更有价值。 而 AI 驱动的过滤工具,一方面更适合专业领域、特定领域,比如用于模糊地搜索资料,比如更接近人类思维的方式分析统计数据,比如处理高维度的、来源混杂的、缺乏规律的、不知道该怎么组织的资料……AI 在这样的场景下,可以降低原始资料的处理难度、处理规模。 另一方面,AI 驱动的过滤工具,可以在算法推荐、手工搜索之后,提供一个辅助手段来缩小结果,比如我去电商网站搜索“母亲节礼物”,显然我会得到一堆又一堆推荐商品,如果这时候 AI 能帮我过滤掉俗气的、花哨的、不实用的商品,就能节省我的大量精力。 增加过滤的成就感 既然推荐天然地符合人性,而过滤总是某种自寻烦恼的苦差事,那么用 AI 提高了过滤效率之后,更需要帮助用户感知这些改变,利用正反馈来帮助用户更多地使用过滤。 这方面的策略和方法非常成熟,就不展开说了。 简单而言,比如训练狗狗,你怎么能让几百万年都随地大小便的狗狗,学会“上厕所”?- 用奖励的方式,帮狗狗形成条件反射。 让 ChatGPT 们变得更快、创造更好的使用体验 前文提到 RecAlign 处理速度太慢了,其实这是所有 GPT、ChatGPT 类产品共同的问题。我们都习惯了刷新一下、几十毫秒就得到结果,而你问 ChatGPT 一个简单问题,最快也得等待几秒。 技术上有很多手段让慢速操作变快。比如只用慢速的 GPT 处理最初和最后的人机交互,把实际的数据处理交给更快的本地程序。 产品设计是避免 GPT 太慢的主要一环。比如 GPT 不适合过滤推特这样实时的信息流,但在更新速度相对较慢的知乎,“慢慢吞吞”地过滤信息的负面感觉就小得多,而在独立电商网站提供 GPT 过滤功能,慢速过滤的综合体验甚至能做到相对舒适。 UX 设计中也有一些基本的设计策略,让慢速的操作感觉挺快。比如从视觉上弱化速度慢的感觉,如果我们首先把推特界面上花里胡哨的视觉元素简化,那么可以用 UI 的简单来制造速度挺快的假象。又比如预先载入信息、或者延迟载入信息,避免用户被处理信息的过程卡住,现实中最常见的一个例子是图片的延迟载入 / lazy loading。 最底线是开发者、产品经理、设计师得时刻意识到 ChatGPT 们天然的“慢”。 现在 ChatGPT、GPT 为代表的 AI 只有几个月大,很多着急上线的产品设计、UX 设计都不咋地,慢吞吞的产品一样可以赢得用户;但是后面随着产品的普及,用户体验的影响会越来越大,AI 的“快”会重新变成重要的竞争因素。 回到最初的问题,我觉得 RecAlign 和类似的插件都难以对抗推荐算法、打破“信息茧房”。 恶人会用 AI 来优化推荐算法、让推荐更击中我们的要害。而我们很难用 AI 来帮我们更平静、更有目的、更有耐心、更关注价值…这些对抗推荐算法的基本能力,来自积极的生活态度、合理的价值观、强大的内心、超越常人的耐心……这些都不是哪个工具能解决的。 重要的时刻,只有我们自己能帮助自己。 – FIN –

设计 | 怎么用声音对抗 AI 狂潮中的信息过载?

OpenAI 推出 ChatGPT 后引发了 AI 狂潮,每个人每天醒来都面临恐慌,不知道今天又会被什么 AI 新功能、新用法、新工具…新赚钱机会击中,更不知道今天会错过什么改变世界的 AI 新动态。怎么办?解决办法貌似很奇怪:听播客! 解决了什么问题 在持续不断的 AI 信息轰炸中,目前占据 AI 信息价值链(aka 鄙视链)最顶端的,无疑是各种 AI 论文作者,以及阅读论文、把论文变成产品的 AI 开发者。不过 AI 的指数级爆发也带来了一个史无前例的障碍:AI 论文也是指数级爆发,每天论文太多了、太多了、太多了…多到根本看不过来! 优秀学习者、阅读者都知道,获取优质信息需要一个好的处理流程,比如精选优质信息源、以某种价值筛选出优质文章、按照信息的重要程度优先阅读、通过泛读和预读来提前消化信息…这些方法本质上都是一种优化信息获取的信噪比,尽可能优选出优质信息、过滤掉噪音信息。 论文和一般信息的差别在于,它们的信息源、质量、重要性都已经经过高度优化,很难在这些高质量信息里再做筛选和过滤。这就逼着论文读者们不得不硬着头皮,阅读越来越多的“每篇”论文。 yeah、yeah、yeah 我知道你想说什么:为什么不用 ChatGPT 给论文生成摘要呢?预先读一下摘要,不就能判断这篇论文是否值得深入阅读和研究了么? 解决问题的方法:听 Podcast 播客 的确如此,开发者、研究者们用 ChatGPT、GPT 制作了各种工具,来生成论文摘要、简化选择论文的难度。 但是很遗憾,现在论文多到了连生成的摘要都没时间阅读!这真是人类历史上少有的奇怪问题。 著名论文预印本网站 arXiv 提供了一个解决方案:借助 ScienceCast 公司的力量,把每天的新论文变成播客节目。 具体而言,他们综合使用了两种不同的 AI 技术:先用 GPT 生成自然语言的论文摘要,突出论文重点、减少低信息量的冗余信息;再用语音合成 AI 合成自然发音的人声;最后制作为每日的播客节目。 订阅者可以按照科研领域,收听不同领域的论文播客。试听最新一期 AI 主题的论文播客。 这套方案最大的亮点在于:眼睛是独占的,你不能边开车边看论文;而耳朵能够“多任务”,你可以一边开车、一边吃饭、一边遛狗、一边那个…一边听论文播客。 毫不夸张地说,播客这种“多任务”的音频信息,能帮你在满满当当的一天 24 小时里,再凭空多出半小时、一小时。 产品设计想象空间 基本上播客是音频信息最简单的载体,因为播客播放器很普及,播放设备也不限于手机、电脑、汽车,甚至收听时间和地点都可以很碎片化,在不跟 TikTok 们抢时间的大前提下,收听播客属于阻力特别小、收益也不低的信息消费方式。 利用 GPT 和语音合成 AI 来制作播客节目,会把以前那种创作者为中心的创作流程,变成以信息、以内容为中心的制作流程。不难想象,以后以播客为载体的音频类信息会急剧增加,听播客会变成一种更普及的信息获取方式。 另外,因为 GPT 具备自然语言交互能力,语音识别 AI 的准确性也越来越高,以后收听播客的交互方式和综合体验也会有新变化。比如你可以不依赖手和眼睛,直接用语音和 AI 附体的播客播放器交互: 你问它有什么好听的?它马上告诉值得听什么。 你问它这期节目好听在哪儿?它马上把精彩部分摘录出来直接放给你听。 你说这期节目真不错…它说好的!它马上按你语气生成分享台词,然后自动分享给你的朋友 A、B、C、D… 今天拿播客来对抗信息超载,似乎是有点奇怪。 但有了 AI 作为支撑,播客和那些还没被发明的音频内容,一定会从每天 24 小时里挤出更多时间,用这些时间来帮助人类改变世界。

THE ELECTRICIAN

创作 | 艺术家用 AI 作品赢得世界摄影大赛,但他拒绝了大奖

AI 代替打工人、操作员已经成为不可逆转的现实,那么以创意、创造、创作见长的艺术家呢…AI 又会以什么样的形式代替艺术家的创作?AI 能否作为一个艺术创作的实体而得到人类的认同?这位德国艺术家用挑战世界摄影大赛的方式,敦促摄影界认真地思考这个问题。 来自德国柏林的“摄影媒体艺术家” Boris Eldagsen,用一幅 AI 作品参加世界最负盛名的索尼世界摄影奖(Sony World Photography Awards),并在 2023 年公开赛中获得了创意类别总冠军。但他拒绝了这个大奖。 获奖作品 这件作品名为 The Electrician,来自 Boris 名为“PSEUDOMNESIA: Fake Memories / 虚假失忆症:虚假记忆”系列。他从 2022 年开始这个系列的创作,使用 1940 年的视觉语言、摄影语言,创造一系列从未存在、也从未被拍摄的图像。 图像还是摄影?获奖 AI 作品的创作过程 是的,他把自己的作品称为“图像”而不是“照片”。获得索尼摄影大奖之后,他在自己的博客上表示,“我从 1989 年开始摄影,从 2000 年开始成为一名照片媒体艺术家。经过二十年的摄影,我的艺术重心已经转移到探索 AI 生成器的创作可能性上。” 他使用 AIGC 工具,利用 AI 来创造“PSEUDOMNESIA: Fake Memories”系列作品。新闻报道说他使用“text-image”工具创作和重新编辑,每张图像处理 20-40 次,结合了“text-image”工具的 inpainting、outpainting、prompt whispering 等技巧。 报道没说他用的是哪个工具,不过提到了”These images were imagined by language“,嘿嘿,看到熟悉的 imagine、大家应该能猜到了。考虑到他创作的时间较早,Midjourney 也没有 Stable Diffusion 的 ControlNet 等工具,可以推测他的创作方法既不同于业余 AIGC 爱好者,也不同于目的性很强的游戏公司美术师,他的创作应该更接近于艺术家传统的创作方法: 从一个模糊的概念开始不断尝试,既尝试成功、更尝试失败,即借助原始的创意冲动、传统摄影技法、个人的艺术修养来创作,更会从各种不可控的变数、临时迸发的新想法、无法接受的失败里寻找新方向。 他对这幅获奖作品的自我评价,也清晰地阐述了自己使用 AI 创作图像的理念: 这幅获奖作品是 Prompt Engineering、inpainting 和 outpainting 之间复杂相互作用的结果,并借鉴了我丰富的摄影知识。对我来说,使用 AI 图像生成器是一种共同创作,我是创作中的导演。它关注的并非按一下按钮、然后就完成了,它探索的是整个过程的复杂性,从改进文本提示开始,然后开发一个复杂的工作流程,并混合各种平台和技术。您创建这样的工作流程和定义参数的次数越多,您的创意所占比例就越高。 – Boris Eldagsen 拒绝获奖,倡导创立独立的 AI 摄影奖项 Boris 获奖显然也引起了争议,摄影师们哀叹,认为在没有任何相机、光线的情况下创作的图像,竟然击败真正的摄影师、获得最高摄影奖。 Boris 本人表示:人工智能图像和摄影不应该在这样的奖项中相互竞争。他们是不同的实体,人工智能不是摄影,所以我不会领奖。 他说自己参加比赛的原意是将 AI 创作的图像带入摄影比赛,以便为 AI 图像设立单独的奖项。而他拒绝领奖,希望以此加速对 AI 图像进入摄影比赛的讨论。 为了引发更多讨论,Boris 还自费从柏林赶到伦敦的“索尼世界摄影奖”颁奖典礼,并且不请自来冲上舞台、抢过麦克风发表声明并拒绝获奖。 重新发明摄影 索尼世界摄影奖主办方显然没有准备好怎么应对 AI 作品。 随后他们撤销了 Boris Eldagsen 获得的大奖,比赛官方网站和随后的展览中,Boris Eldagsen 的获奖作品 The Electrician 都被撤除。 很大意义上,The Electrician 获奖背后的争论,和当年摄影术侵占传统绘画领域时的争论不谋而合:到底是创作工具重要、还是作品本身的创意和艺术性更重要? 摄影师群体也在反复强调,重要的不是相机而是相机背后的眼睛(The single most important component of a camera is the twelve inches behind it. –  Ansel Adams) 而 Boris Eldagsen 发起的讨论,为摄影艺术创作带来了 AI 时代独特的、我们都还没有准备好的问题: 相机只是工具、并不参与创作,它不能视为一个创作的实体;而 Midjourney、Stable Diffusion 之类的 AI 直接参与了创作,它们在艺术家、创作者的控制下引入了原始创意之外的创造性…所以 AI 能否也被视为一个创作的实体? Boris Eldagsen 以他自己的方式重新发明了摄影,我们呢?是不是在 AI 模型、AIGC 工具的推动下,重新发明了智慧?

设计 | 怎么在 iOS、Android 的全局层面使用 ChatGPT

目前在 iOS、Android 上使用 ChatGPT 的方法,要么是浏览器访问 ChatGPT 官网页面, 要么使用某个 ChatGPT APP,要么使用捷径呼出 ChatGPT,有没有一个更加全局层面的用法,让我们在“任何地方”使用 ChatGPT? 的确有个方法:使用 ChatGPT 键盘 / ChatGPT 输入法。 下面以 Smarty 这个 iOS APP 为例,解释一下 ChatGPT 键盘的设计。 Smarty APP 安装后,会在 iOS 里安装一个名为 Smarty 的新键盘。以后只要界面里有输入框,你就可以像呼出 emoji 键盘一样呼出 Smarty 键盘。 Smarty 键盘呼出后,屏幕下方约 50% 的区域会变成 ChatGPT 功能区,你可以像所有 ChatGPT 客户端一样,使用 ChatGPT 的摘要、改写、翻译等等功能。 Smarty 键盘输入信息的方式有点笨,它并没有提供输入框!你得先在 Notes、浏览器地址栏等输入框里选好文字,而后再点一下 ⬆️ 键把选中的文字黏贴进 Smarty 键盘,而后开始实际的摘要、改写、翻译等等操作。 OK 拿我的工作室网站的“关于”页面测试一下:在地址栏里选中 url,点 ⬆️ 再点“摘要”,Smarty 调用 ChatGPT,为“关于”页面生成了两种格式的摘要,先是段落形式的文字摘要,再提供列表形式的要点。 生成结果还不错,可见 Smarty 键盘背后的 Prompt 还挺实用。 再补充一个开发者自己推荐的使用案例:在微信聊天里,点姑娘的话 – 转入 Smarty 生成套话 – 黏贴回微信聊天 – 完成一次完美对话! 在这个例子里,可以看出开发者自己对 Smarty 键盘的定义:并非整合进来的 copilot,而是为现有产品助力的外挂😂。 解决了什么问题 用 iOS 或者 Android 系统键盘的方式提供 ChatGPT 功能,只要有输入框就能用 ChatGPT,这种设计思路一方面为手机提供了全局的、系统级别调用 ChatGPT 的能力,方便用户在“任何地方”使用 ChatGPT。 另一方面键盘的产品形式比较轻量,弱化了“又得下载一个 ChatGPT 客户端”的心理障碍。要知道现在每个用户手机上都有多个 ChatGPT、每个都既有用又有缺点,“又得下载一个”的心理压力很不舒服。 另外国内使用 ChatGPT 有障碍,Smarty 键盘以收费服务的方式提供 ChatGPT 服务,也算避免了一系列的折腾。 怎么改进设计 Smarty 键盘的 UI 和 UX 设计有严重的问题,因为产品定义更像一个 AI “外挂”, 所以相比一般的 ChatGPT 产品,它操作起来特别不自然,甚至说不正常。 主要问题之一是呼出键盘很简单、但启动 ChatGPT 的步骤较麻烦。 问题之二是没有内置的输入框,无法直接跟 ChatGPT 对话。利用界面里现有的输入框作为输入框,把键盘区作为输出窗口,这表面上看似工整,其实产品逻辑有漏洞,本质上说,这个设计剥夺了 ChatGPT 最重要也最受欢迎的功能:聊天/对话式人机交互。(注:也有另一个可能,或许因为试用额度用完了、订阅之后就能出现输入框?不得而知) 问题之三是一组单纯的 UI 设计问题:操作区太小、显示区太小、按钮太小…所有操作都很局促;UI 配色、排版、交互都很业余…不展开说了。 产品设计想象空间 考虑到搜狗输入法们早已升仙,把基本的输入功能扩展成马斯克梦想的“超级APP”,苹果也早就把 Siri 整合进了键盘区,估计以后 ChatGPT 键盘、AI 键盘、Copilot 键盘都会变成常态,各大公司会把这个功能都实现一遍。创业团队、独立开发者如果仅仅提供通用的 ChatGPT 键盘、而不能提供某项专用功能,估计很快就被淘汰了。 同样的 ChatGPT 键盘思路当然也可以用在桌面电脑上。电脑的屏幕更大,还有物理键盘和鼠标,呼出键盘、启动 ChatGPT、内置输入框、宽敞的操作区…这些手机上难以实现的用户体验,在桌面电脑上很容易实现。 一旦在电脑里“任何地方”引入 ChatGPT,并且引导用户开始跟 AI 聊天,后面就该卖广告卖广告、该分发流量就分发流量、该乱收会员费就乱收会员费,说不定那几个“一万年”都做不好社交的大公司,还能利用键盘、输入法和 ChatGPT 再试一次社交呢! 补充 本文发布的同时,微软正式在 SwiftKey 键盘里,为 iOS、Android 新增了 Bing Chat / ChatGPT 功能。 参考 ZDNET 的新闻,微软在 SwiftKey 键盘里集成了搜索、修改语调、聊天三个功能,和 Smarty 键盘一样,SwiftKey 键盘也是在约占屏幕大小 50% 的键盘区里进行操作,UI 和交互设计也是说不上来的奇怪,或者说以前并没有太好的设计模式(design pattern),来在这么小的操作区域里做这么复杂的操作,所以怎么看、怎么用都觉得别扭。

设计 | 怎么用 AI 聊天机器人帮你找到合适的开发者

整体感觉 ChatGPT 展示了无与伦比的自然语言交互能力后,沉寂数年的 Chat Bot 聊天机器人又成了产品设计的宠儿。比如 HackrHQ 这个网站,它用聊天的方式帮你寻找自由职业开发者/程序员。 https://hackrhq.com/ 网站还在极早期阶段,我测试时假设自己是设计师,正在寻找 js 程序员帮我搞定静态网站。 HackrHQ 的聊天机器人从我的需求入手,一步一步提问、引导我描述我需要什么,同时聊天机器人会给我各种选项,帮我厘清要求、让我的要求更具体。开始的对话和传统聊天机器人类似,但随着对话的深入,类似 ChatGPT 的交流能力越来越明显。 几轮对话后,我说出了打败传统聊天机器人的咒语:我也不知道,我又不懂技术! 传统聊天机器人遇到这种无法回答的话,就会用从知识库里胡乱选几句话应付你。 在 HackrHQ 的测试里,很显然机器人它理解了我的话,不但给出一堆建议,而且不再废话,立刻向我推荐了一位适合我的开发者。 紧接着,这位开发者也加入了对话,以他的身份直接跟我交流。注:我第一次测试时,这里的设计有问题,机器人和开发者的身份没有明显区隔,逻辑上和体验上都错了,而且产生了不信任感。之后 HackrHQ 的开发者看到本文,主动联系到了我,特地解释说这个 bug 已经改好。 整体测试下来其实还行,被所谓的智能聊天机器人折磨多年之后,感谢 ChatGPT,现在终于有了“自然语言人机交互”的感觉。 解决了什么问题 很多企业和个人会雇佣自由职业开发者,来完成一些短期开发项目,比如做一个小 APP、创建一个网站、甚至改几行 js 代码。 问题一是雇佣开发者是个单调乏味又充满挫败感的事。 这些临时雇主往往不了解技术,也不清楚到底要雇佣什么样的开发者。看到 Upwork、Freelancer 上密密麻麻的自由职业开发者列表,甚至不知道从哪儿下手,更别说是提出具体要求了。所以传统雇佣程序员、设计师等等涉及到专业技能的自由职业者,雇佣过程是个体力活,需要来回交流多次、挑选多人,才有可能找到一个合适的候选人。 这时候往往需要一个“雇佣专员”,来帮助雇主和自由职业者沟通。ChatGPT 的自然语言交互能力,让自动化的、智能的、极低成本的“雇佣专员”成为可能,在非标准化的雇佣需求和相对标准化的自由职业者数据之间,实现了一个相对简单、也相对靠谱的撮合工具。 问题二是开发者也缺少基本的沟通能力。 自由职业开发者相当于一个“一人公司”,除了正常的开发工作之外,还要处理推广、客服/技术支持、客户关系管理等等各种工作,而且开发者自己也得不断学习新技巧、新工具、新方法…实际上很难留出足够的精力,来回应每个潜在雇主的每个含糊的问题。更不用说今天的自由职业开发者通常是远程工作,跨时区也很常见,开发者本人很难及时响应潜在雇主的咨询。 这时候 ChatGPT 可以担任自由职业开发者的“个人助理”,来帮助自由职业者应答潜在雇主的各种问题。开发者可以异步地处理这个“个人助理”获得的信息,而后再决定是继续与潜在雇主沟通,还是婉言谢绝这个雇佣请求。 问题三是传统聊天机器人的“愚蠢”。 传统聊天机器人基于知识库和少量的 AI,理解能力、表达能力都有限。在客服系统这样任务相对简单的系统里,传统聊天机器人还算勉强胜任;到了雇佣自由职业者这种非标准化的、复杂的场景下,传统聊天机器人的 AI 根本处理不了,只能要么转人工服务、要么糊弄用户。 不清楚 HackrHQ 的技术到底怎么实现的,也不知道其中是不是真的使用了 ChatGPT,不过毫无疑问这个聊天机器人明显更聪明了,而且的确能有针对性地提供帮助,这显然是聊天机器人正确的发展方向。 更新 本文第一版发布后给 HackrHQ 带去了访问量,因此 HackrHQ 开发者回来找到了我,而且特地跟我约了视频会议。 他是在加州创业的法国人(说话口音很正常,不像电影电视里夸张的法国式英语),很爽朗、直率的人,一看就是程序员😆。之前我不知道他在哪儿,辛苦他一大早六点多钟起来跟我交流。他们有一个团队,正在很正式地做这个项目。他本人就是开发者,HackrHQ 也属于“eating your own dog food”,解决的就是他和其他开发者的实际问题。 他们还在积极开发中,最近在 HackrHQ 平台里新增了开发者 profile 功能,一方面是未来雇主可以在 profile 里了解开发者概况,另一方面未来雇主也可以直接和开发者的 AI “个人助理”交流,先把前期沟通进行起来。 开发者一般都很不情愿做营销方面的工作,特别是做招聘市场业务,开始总会卡在“鸡生蛋、蛋生鸡”的问题 – 是先找到开发者还是先找到雇主?上哪儿找?怎么建立起市场的知名度和信任度?… 这些问题远比想象中困难,也并非一个技术创业团队的强项,所以作为设计顾问、品牌设计方面的专家,我也建议他们先选择“AI 开发者”这个利基市场/垂直市场,来积累 HackrHQ 的种子用户。这个思路利用 LLM 带来的 AI 热潮吸引种子用户,不但能聚集对 AI、ChatGPT 有需求的雇主,也能聚集在 AI、ChatGPT 方面有专长的开发者。 最低限度,这是一个很好的营销故事 – 想开发 AI 的人、在 AI 驱动的招聘市场里、借助 AI 的力量、找到了熟悉 AI 技术的开发者 – 一个多么具有感染力的画面! 考虑到 ChatGPT 越来越流行,大到谨慎的日本政府、小到家门口的爸爸妈妈烘焙店,每个人都需要 ChatGPT 来帮我们工作,对 AI 开发者、HackrHQ 这样“AI 开发者招聘市场”的需求,显然也会越来越强烈。

设计 | 为什么要用 AI 来实现视频搜索

视频编辑工具 NOVA AI 的视频搜索功能,可以在视频里搜索表情、事件、物品、建筑,或者搜索名人、你、你朋友的脸,以及搜索特定单词、句子。 以后编辑视频时,就不需要反复快进、在十几小时的视频素材里寻找特定时刻了,直接搜索一下就行。 按照官网介绍,NOVA AI 使用了 AI 视觉识别来分析视频内容,每 1 小时视频大约需要 10 分钟分析并生成索引。相比在视频剪辑过程中使用“视频搜索”所节约的大量时间,分析视频所需的这 10 分钟完全可以忽略。 我特别希望 Youtube 尽快提供视频内搜索功能。 比如说我快速看了一个 1 小时的教程,其中有几个小节特别重要、但我没有及时做笔记,那么使用视频搜索功能很快就能找到那几个小节,再也不需要反复快进、扫描整个视频了。 以前曾经介绍过一个把 YouTube 视频转为图文的方法,可以勉强应付一下在 Youtube 里进行视频搜索的需求。 原文发表于这里。

设计 | 怎么利用 ChatGPT,把松散的播客谈话变成基于问答的知识库?

播客之类的音频内容,天然地信息密度较低、相对价值也较低。使用 ChatGPT 等 AI 技术加工播客等音频内容,提炼出有价值的信息,将明显提升音频内容的价值。 推友 @GanymedeNil 和“津津乐道播客”合作,利用 ChatGPT 和自定义的 prompt,把 281 期“津津乐道播客”节目转成了 1.8 万个中文问答对,并公开了所有数据。这是已知的第一个中文播客语料库,向社会开放这些数据,会为相关领域的产品开发和设计助一臂之力。 解决了什么问题 相比一般的内容摘要,为播客、谈话、演讲等音频内容生成问答对,好处是处理之后的信息密度更高。 举个最通俗的例子,如果你把大领导两个小时的长篇演讲,汇总加工成演讲摘录,方案 A 是生成 800 字泛泛的会议纪要,估计就是几十句似是而非的车轱辘话,而方案 B 总结出了 20 大问题及其解答,简明扼要还字字珠玑…你觉得哪个摘录显得领导更伟大? 回到“津津乐道播客”这个例子,给播客内容做摘要其实很困难。 播客本身的特点是信息密度特别低,而且像“津津乐道播客”这种以经验见长的播客,即便有方法能生成内容摘录,很可能只能生成泛泛的摘要,很难从松散、稀疏的内容里挑出高价值的经验。 而其他一些偏想法、偏讨论的播客,节目内容大比例是思想的交流和碰撞,并没有太多明确的观点和结论。大家可以设想一下,如果许知远老师侃侃而谈一小时,一般摘要算法可能只是说一句正确的废话,而完全 get 不到他说的任何要点。 所以把播客内容转化为问答对,这就很有价值了。 按照一般语速、一般节目时长估算,“津津乐道播客”所有音频节目转成文字后大约有 300 万汉字。从这么多文字中生成 1.8 万个问答对,差不多是每 150 字、或者说每 1 分钟对话总结出一对问答,这个效率其实非常之高。 而且问答对的信息质量也相当之高,比如我截屏的这一组问答对,聊的是远程工作的经验,毫无废话、毫无似是而非的观点、也没有 ChatGPT 特有的漂亮屁话 – 每一句都是真正的经验之谈。 @GanymedeNil 曾利用 ChatGPT 把“默沙东诊疗手册” 制作成为专业数据库、问诊 AI,受到业界强烈关注。这次他又着眼于数据,发布基于播客节目的公开语料库。他表示,时机成熟后,他会公布制作中文播客语料库的相关 prompt,非常期待! 产品设计想象空间 现在还属于 LLM 类 AI 产品设计的早期,除了 ChatGPT 这些基础架构类的产品,多数第三方和独立开发者开发的 AI 产品偏向于工具,而有意无意地忽视了更重要的“数据”。这个中文播客语料库的公布,为音频内容相关的 AI 产品设计带来了新的可能。 例如利用这些数据,开发者既可以自建基于经验、类似 FAQ 的 AI 知识库,又可以针对音频内容的特点,设计数据导向、内容导向的 AI 产品。 又比如创建中文播客语料库的这套方法,还可以用于课程、演讲、会议、演示等等音频和视频内容的转化,多少沉寂的音频内容即将二次投胎。 至于通过以上方法,获得一个播客、课程、演讲、会议、演示…的问答对,二次加工后形成一个独有的垂直知识库之后,到底能有什么具体的应用,那就可以随便想象了。 毕竟数据才是今天最值钱的硬资源。

设计 | 为什么要用 GPT 把新闻变得无聊

有国外团队开发了一款特别的新闻 APP,就叫 Boring Report/无聊报道,开发者说它用 GPT 自动过滤掉新闻中耸人听闻的部分,只给读者留下最基本的信息。 进入 App Store 下载。 开发者开发这款 APP 的理由,是说新闻里哗众取宠的干扰信息太多,反而让人忽略了事实。 还真有不少人支持这种概念,还提出了各种产品设计的反馈。不过从产品设计角度来说,虽说它的创意还不错,但我不太看好这个 APP 基本的 idea。 首先今天各种耸动的新闻,往往并不是表述、写法、语言的耸动,而是基本观点本身就是为了利益、为了流量而刻意地耸动,GPT 也许能过滤掉耸动的语言,但无法过滤掉一个观点。 其次这个 APP 本质上只是一个新闻摘要 APP,“过滤掉新闻中耸人听闻的部分”很可能只是一种营销的概念,借助摘要带来的错觉,推销又一款新闻摘要工具。 最后,选择从什么渠道读哪些新闻,这种选择过程本身就是有高度倾向性的,如果读者选择了阅读某个极端媒体,GPT 为这些极端新闻生成摘要,实际上反而会提高她/他吸收这些极端新闻的效率。 在新闻阅读这个产品领域里,太多问题无法通过一个 AI、一种算法来解决。 原文发表于这里。

学习 | 怎么学习 ChatGPT 和 Midjourney 指令的方法还不一样?不都是 Prompt / 指令么

之前推荐的 ChatGPT Prompt 教程作者 @thinkingjimmy,又发布了全新的 Midjourney Prompt 教程。 这次教程同样也是既介绍原理也分享实际例子,分为基础、常用指令(按照场景分类)、技巧、高级等几大块,主要教程内容详细而真实,既分享方法也分享了作者自己的学习过程。 作者还贴心地补充了学习所需的其他基础知识、外围知识,比如介绍部分艺术风格、艺术家。 课程也有缺憾:因为作者自己对绘画、摄影、设计都是外行,所以教程更偏向于制作、而不是艺术创作。估计大家都不会介意这点小缺憾。 对比一下这次 Midjourney 教程和上次的 ChatGPT 教程,有个很有趣的差异:学习两套教程的方法不一样。 ChatGPT 教程主要教你利用 GPT 的思维方式,而 Midjourney 教程明显就是直接教你操作 AI 绘图的方法,前者偏原理,像是为创作者准备的,后者接近于手册,就像培训操作线工人。 作者在教程里也提到了 ChatGPT 和 Midjourney 的差异,他用程序员的行话来解释:ChatGPT 属于“声明式”(你跟它描述你想要什么,它去思考)、Midjourney 属于“命令式”(你输入什么指令、它就生成什么)。 所以 Prompt 和 Prompt 虽然都是指令,但它们并不一样,学习方法自然也不同。 说到 ChatGPT 和 Midjourney 指令的差异,有个真实例子:津津乐道播客现在用 Midjourney 来生成每期播客节目的封面图、推广图。 他们先在 ChatGPT 里输入节目标题或简介,生成 Midjourney 提示语,再把提示语输入到 Midjourney,从生成的几十张图片里筛选出最佳图片。 这种流程结合了 ChatGPT 的“声明式”指令和 Midjourney 的“命令式”指令,整个过程完全不涉及具体设计要求,也不需要具备任何设计能力,而且制作出来的图片可以满足一般使用。

学习 | AI 世界里,不是每一条指令都平等

有人不明白“指令大全”和 Prompt Engineering 的差别。 1,“指令大全” 指令大全是一堆别人写好的 prompt,它们用固定方法解决固定问题。使用别人写好的指令时,我们就是不过脑的操作员,换言之毫无竞争力,随时能被其他更听话、体力更好、工资更低的操作员替换。 现在大家觉得“指令大全”很牛逼,主要是 ChatGPT 们还不够普及,我们在享受时间差、信息差带来的优势。等到“文心一言”之类国产 AI 更普及之后,很快满大街都是各种指令培训班,随便一个中学毕业生拉出来培训 3 天,就能上线操作,不出一周熟练程度就超过你。 2,Prompt Engineering Prompt Engineering 是自行创建指令的方法,如果掌握了方法,那么我们既可以用 AI 来解决未知的新问题,也可以充分发挥 AI 的潜力,更有效地、更低成本地解决已知的老问题。 甚至再“哲学”一点,我们可以反向操作,用解决的方法来反向创造出更多不存在的新问题,aka 创造新的增长点、新的赚钱机会。 对个人而言,学习 Prompt Engineering 的价值是掌握一套新的竞争手段,在今后 AI 越来越普及的社会里尽快建立起自己的竞争优势。 3,随便举个例子 大家都知道 ChatGPT 很擅长给小朋友编故事。 比如说你是大男子主义的年轻爸爸,想拿 ChatGPT 编故事教孩子男儿当自强;而你太太追求男女平等,她拿 ChatGPT 编故事教孩子尊重女性… 你俩靠现成的指令,怎么能编出男儿自尊和尊重女性之间尺度刚刚好的故事? 又比如你们孩子特别聪明,自己猜到了创造 ChatGPT 指令的方法,ta 自己编指令阻止了你们所有的狗屁故事。 那你们怎么办?学老一辈的做法,禁止 ta 使用 ChatGPT 对吧?! …… 不是每一条指令都平等,从 AI 时代的竞争角度而言,指令的价值,很大程度上取决于它是你从别人那儿抄来的,还是你自己根据实际问题而自行创造的。 原文发表于:这里

学习 | ChatGPT Prompt Engineering 基础教程

如果想学会 ChatGPT、把它作为竞争工具,推荐这个 Prompt Engineering 基础教程。 https://learningprompt.wiki 我也断断续续在这儿学习来着。 找到一手的人,学习一手资料 如果真的想学一个知识、技能、方法、方法论…最基础的方法是找到一手的人、学习一手资料。 比如学 GPT,可以学习 GPT 专家、开发者、创业公司,或者用 GPT 实操创作内容的,或者像我这样关注 GPT 时代的产品设计的…跟一手的人学习,会学到俗称的“干货”。 爱抬杠的事逼肯定说一手资料不够全面啊、更新不够快啊、没有介绍最新的几点几模型啊…贪多贪全贪快贪新只不过是拖延实际学习的一个漂亮借口,你且自欺欺人去吧。 这个 Prompt Engineering 教程就属于一手资料,准确说它更像是作者的学习笔记,它不但教你知识和方法,也真实地拿作者自己遇到的问题来和读者,学生们交流。 我反正看着教程经常感慨:某某文档里这那句拗口的话原来是这个意思! 至于二手和三手资料 话说回来,如果你并不想学习 Prompt Engineering、只是害怕跟不上潮流、害怕被淘汰,那么看看二手资料也不错。 比如媒体报道、投资人的行业分析、技术专家对 AI 技术的评价等等…虽说不能学懂到具体知识和方法,至少它们能帮你了解 GPT 们的真实的进展。 至于第三手的资料,比如 XX大全、YY 天学会 AI 教程、ZZ 群的某某老师…大家都懂。 很高兴有人这么有耐心,分享学习 Prompt Engineering 的一手资料。