设计 | 怎么利用 ChatGPT,把松散的播客谈话变成基于问答的知识库?

Design For AI

// 设计AI,设计未来 // 从产品设计角度介绍 AI 产品、讲解设计方法、传授设计策略
播客之类的音频内容,天然地信息密度较低、相对价值也较低。使用 ChatGPT 等 AI 技术加工播客等音频内容,提炼出有价值的信息,将明显提升音频内容的价值。

推友 @GanymedeNil 和“津津乐道播客”合作,利用 ChatGPT 和自定义的 prompt,把 281 期“津津乐道播客”节目转成了 1.8 万个中文问答对,并公开了所有数据。这是已知的第一个中文播客语料库,向社会开放这些数据,会为相关领域的产品开发和设计助一臂之力。

解决了什么问题

相比一般的内容摘要,为播客、谈话、演讲等音频内容生成问答对,好处是处理之后的信息密度更高

举个最通俗的例子,如果你把大领导两个小时的长篇演讲,汇总加工成演讲摘录,方案 A 是生成 800 字泛泛的会议纪要,估计就是几十句似是而非的车轱辘话,而方案 B 总结出了 20 大问题及其解答,简明扼要还字字珠玑…你觉得哪个摘录显得领导更伟大?

设计 | 怎么利用 ChatGPT,把松散的播客谈话变成基于问答的知识库? 1
第一个中文播客语料库

回到“津津乐道播客”这个例子,给播客内容做摘要其实很困难。

播客本身的特点是信息密度特别低,而且像“津津乐道播客”这种以经验见长的播客,即便有方法能生成内容摘录,很可能只能生成泛泛的摘要,很难从松散、稀疏的内容里挑出高价值的经验。

而其他一些偏想法、偏讨论的播客,节目内容大比例是思想的交流和碰撞,并没有太多明确的观点和结论。大家可以设想一下,如果许知远老师侃侃而谈一小时,一般摘要算法可能只是说一句正确的废话,而完全 get 不到他说的任何要点。

所以把播客内容转化为问答对,这就很有价值了。


设计 | 怎么利用 ChatGPT,把松散的播客谈话变成基于问答的知识库? 2
中文播客语料库中的问答对示例

按照一般语速、一般节目时长估算,“津津乐道播客”所有音频节目转成文字后大约有 300 万汉字。从这么多文字中生成 1.8 万个问答对,差不多是每 150 字、或者说每 1 分钟对话总结出一对问答,这个效率其实非常之高。

而且问答对的信息质量也相当之高,比如我截屏的这一组问答对,聊的是远程工作的经验,毫无废话、毫无似是而非的观点、也没有 ChatGPT 特有的漂亮屁话 – 每一句都是真正的经验之谈。

@GanymedeNil 曾利用 ChatGPT 把“默沙东诊疗手册” 制作成为专业数据库、问诊 AI,受到业界强烈关注。这次他又着眼于数据,发布基于播客节目的公开语料库。他表示,时机成熟后,他会公布制作中文播客语料库的相关 prompt,非常期待!


产品设计想象空间

现在还属于 LLM 类 AI 产品设计的早期,除了 ChatGPT 这些基础架构类的产品,多数第三方和独立开发者开发的 AI 产品偏向于工具,而有意无意地忽视了更重要的“数据”。这个中文播客语料库的公布,为音频内容相关的 AI 产品设计带来了新的可能。

例如利用这些数据,开发者既可以自建基于经验、类似 FAQ 的 AI 知识库,又可以针对音频内容的特点,设计数据导向、内容导向的 AI 产品。

又比如创建中文播客语料库的这套方法,还可以用于课程、演讲、会议、演示等等音频和视频内容的转化,多少沉寂的音频内容即将二次投胎。

至于通过以上方法,获得一个播客、课程、演讲、会议、演示…的问答对,二次加工后形成一个独有的垂直知识库之后,到底能有什么具体的应用,那就可以随便想象了。

毕竟数据才是今天最值钱的硬资源

Author picture

倪爽设计顾问,倪爽设计工作室

滚动至顶部