← 所有節目
EP072026年5月4日01:01:43

為甚麼搜尋仍然壞掉——RAG 之後是甚麼

Michelangiolo Mazzeschi
搜尋與檢索工程師

駐香港的意大利電腦科學家,專攻搜尋、檢索演算法與語義標籤。背景包括國際商業(淡江大學)、量化金融、EY Milan 及 AS Watson。COVID 期間自學 CS,已發表逾 100 篇技術文章於 Medium(medium.com/@ardito.bryan),同時是 Midjourney 漫畫《The Leopard: Dawn of the Warrior》作者(webtoons.com)。目前在研究加權/covariate 搜尋演算法,嘗試突破 RAG 的天花板。

Semantic SearchRAGMidjourney

章節

  1. 0:00開場——AI Tinkerers 重聚與認識 Michelangiolo
  2. 2:14搜尋與檢索——Michelangiolo 的專長
  3. 4:15Excel 比喻——在 LLM 出場前先篩一百萬行
  4. 6:49語義搜尋 vs 關鍵字——lamp、light 與十年停滯
  5. 8:48讓傳統搜尋更聰明——RAG 的天花板
  6. 11:05藝術搜尋——當老虎畫作叫「Blue Ocean」
  7. 13:55樹狀 vs 圖結構——人類如何分類知識
  8. 17:05抽象思維——分類、自閉症與中國文化
  9. 20:00Picasso 橫跨多派別——本體論問題
  10. 21:30從金融到 CS——COVID 期間在佛羅倫斯自學
  11. 24:02為甚麼電腦科學特別適合自學
  12. 27:00標籤 vs 關鍵字——Steam、零售與標籤缺口
  13. 29:24履歷搜尋——最難的搜尋領域之一
  14. 33:07協變量搜尋——加權多維度查詢
  15. 36:45演算法標籤——大規模超越 zero-shot LLM
  16. 42:04文字噪音——為甚麼關鍵字提取仍然會壞
  17. 46:08《The Crimson Duke》——460 頁 Lovecraft 風格 AI 漫畫
  18. 48:40機率一致性——角色生成的小技巧
  19. 51:02創作過程——在 Figma 中規劃 20 頁章節
  20. 54:48修圖與提示一致性——假中文字問題
  21. 60:46結尾——未來合作預告與訂閱

關於本集

Michelangiolo 在 COVID 期間離開量化金融,回到意大利自學電腦科學——現在他正在香港打造全港其中一個最有意思的搜尋系統。我們深入探討為甚麼傳統的 RAG 有問題、他的「covariate search」(協變量搜尋)如何在多個語義維度同時賦予不同權重,以及他即將發表的一套資料標籤演算法,目標是在規模化情境下超越 zero-shot LLM 的標籤能力。然後是有趣的部分:Michelangiolo 用 Midjourney 寫畫了一本 460 頁的 Lovecraft 風格漫畫《The Crimson Duke》,過程中還發現了一個生成角色一致性的機率小技巧。

在 YouTube 觀看 在 Spotify 收聽 在 Apple Podcasts 收聽 在 Overcast 收聽所有節目