← 所有节目
EP072026年5月4日01:01:43

为什么搜寻仍然是坏的——RAG 之后是什么

Michelangiolo Mazzeschi
搜寻与检索工程师

驻香港的意大利电脑科学家,专攻搜寻、检索演算法与语义标签。背景包括国际商业(淡江大学)、量化金融、EY Milan 及 AS Watson。COVID 期间自学 CS,已发表逾 100 篇技术文章于 Medium(medium.com/@ardito.bryan),同时是 Midjourney 漫画《The Leopard: Dawn of the Warrior》作者(webtoons.com)。目前在研究加权/covariate 搜寻演算法,尝试突破 RAG 的天花板。

Semantic SearchRAGMidjourney

章节

  1. 0:00开场——AI Tinkerers 重聚与认识 Michelangiolo
  2. 2:14搜寻与检索——Michelangiolo 的专长
  3. 4:15Excel 比喻——在 LLM 出场前先筛一百万行
  4. 6:49语义搜寻 vs 关键字——lamp、light 与十年停滞
  5. 8:48让传统搜寻更聪明——RAG 的天花板
  6. 11:05艺术搜寻——当老虎画作叫「Blue Ocean」
  7. 13:55树状 vs 图结构——人类如何分类知识
  8. 17:05抽象思维——分类、自闭症与中国文化
  9. 20:00Picasso 横跨多派别——本体论问题
  10. 21:30从金融到 CS——COVID 期间在佛罗伦萨自学
  11. 24:02为什么电脑科学特别适合自学
  12. 27:00标签 vs 关键字——Steam、零售与标签缺口
  13. 29:24履历搜寻——最难的搜寻领域之一
  14. 33:07协变量搜寻——加权多维度查询
  15. 36:45演算法标签——大规模超越 zero-shot LLM
  16. 42:04文字噪音——为什么关键字提取仍然会坏
  17. 46:08《The Crimson Duke》——460 页 Lovecraft 风格 AI 漫画
  18. 48:40概率一致性——角色生成的小技巧
  19. 51:02创作过程——在 Figma 中规划 20 页章节
  20. 54:48修图与提示一致性——假中文字问题
  21. 60:46结尾——未来合作预告与订阅

关于本集

Michelangiolo 在 COVID 期间离开量化金融,回到意大利自学电脑科学——现在他正在香港打造全港其中一个最有意思的搜寻系统。我们深入探讨为甚么传统的 RAG 有问题、他的「covariate search」(协变量搜寻)如何在多个语义维度同时赋予不同权重,以及他即将发表的一套资料标签演算法,目标是在规模化情境下超越 zero-shot LLM 的标签能力。然后是有趣的部分:Michelangiolo 用 Midjourney 写画了一本 460 页的 Lovecraft 风格漫画《The Crimson Duke》,过程中还发现了一个生成角色一致性的机率小技巧。

在 YouTube 观看 在 Spotify 收听 在 Apple Podcasts 收听 在 Overcast 收听所有节目