EP072026年5月4日01:01:43
為甚麼搜尋仍然壞掉——RAG 之後是甚麼
Michelangiolo Mazzeschi
搜尋與檢索工程師
駐香港的意大利電腦科學家,專攻搜尋、檢索演算法與語義標籤。背景包括國際商業(淡江大學)、量化金融、EY Milan 及 AS Watson。COVID 期間自學 CS,已發表逾 100 篇技術文章於 Medium(medium.com/@ardito.bryan),同時是 Midjourney 漫畫《The Leopard: Dawn of the Warrior》作者(webtoons.com)。目前在研究加權/covariate 搜尋演算法,嘗試突破 RAG 的天花板。
Semantic SearchRAGMidjourney
章節
- 0:00開場——AI Tinkerers 重聚與認識 Michelangiolo
- 2:14搜尋與檢索——Michelangiolo 的專長
- 4:15Excel 比喻——在 LLM 出場前先篩一百萬行
- 6:49語義搜尋 vs 關鍵字——lamp、light 與十年停滯
- 8:48讓傳統搜尋更聰明——RAG 的天花板
- 11:05藝術搜尋——當老虎畫作叫「Blue Ocean」
- 13:55樹狀 vs 圖結構——人類如何分類知識
- 17:05抽象思維——分類、自閉症與中國文化
- 20:00Picasso 橫跨多派別——本體論問題
- 21:30從金融到 CS——COVID 期間在佛羅倫斯自學
- 24:02為甚麼電腦科學特別適合自學
- 27:00標籤 vs 關鍵字——Steam、零售與標籤缺口
- 29:24履歷搜尋——最難的搜尋領域之一
- 33:07協變量搜尋——加權多維度查詢
- 36:45演算法標籤——大規模超越 zero-shot LLM
- 42:04文字噪音——為甚麼關鍵字提取仍然會壞
- 46:08《The Crimson Duke》——460 頁 Lovecraft 風格 AI 漫畫
- 48:40機率一致性——角色生成的小技巧
- 51:02創作過程——在 Figma 中規劃 20 頁章節
- 54:48修圖與提示一致性——假中文字問題
- 60:46結尾——未來合作預告與訂閱
關於本集
Michelangiolo 在 COVID 期間離開量化金融,回到意大利自學電腦科學——現在他正在香港打造全港其中一個最有意思的搜尋系統。我們深入探討為甚麼傳統的 RAG 有問題、他的「covariate search」(協變量搜尋)如何在多個語義維度同時賦予不同權重,以及他即將發表的一套資料標籤演算法,目標是在規模化情境下超越 zero-shot LLM 的標籤能力。然後是有趣的部分:Michelangiolo 用 Midjourney 寫畫了一本 460 頁的 Lovecraft 風格漫畫《The Crimson Duke》,過程中還發現了一個生成角色一致性的機率小技巧。