導航:首頁 > 數據處理 > 石墨文檔數據驗證怎麼復制粘貼

石墨文檔數據驗證怎麼復制粘貼

發布時間:2024-12-07 05:49:56

① clickhouse代替es如何對文檔做模糊查詢

模糊查詢在日誌存儲的場景中非常普遍。ClickHouse作為大數據分布式引擎,被作為日誌存儲備選方案。業界多家企業如Uber、石墨文檔、映客、快手、攜程、唯品會等已採用ClickHouse。日誌查詢以模糊查詢為主,ES憑借逆天的分詞能力在日誌存儲領域表現出色,但存儲瓶頸顯現,如壓縮率低,成本高,性能差。ClickHouse在寫入性能、存儲壓縮率方面有明顯優勢,適合模糊查詢的優化空間。其中最具代表性的技術是跳數索引。

跳數索引(二級索引)在ClickHouse中獨立於主鍵索引之外,提供不同類型的索引,如用於去重的set、計算極值的minmax,以及針對全文搜索的布隆過濾器家族。詳細的索引概念和使用實踐可查閱ClickHouse官網文檔。

針對全文查詢,適合的索引有tokenbf_v1、ngrambf_v1和新推出的倒排索引inverted。ngrambf_v1是最適合全文查詢的索引。接下來的實戰將驗證三種索引在查詢優化上的能力。

通過Java程序循環寫入日誌數據,內容包括異常、backtrace等,總數據量為1億條。構建表SQL如下,具體數據寫入過程略。

查詢場景為查找包含[INFO]和gfdsamnbvcxz-asdfghjkl-poiuytrewqlkjh-qwertyuiop的記錄數量。使用不同的索引進行查詢,比較性能。

使用tokenbf_v1創建索引,但物化操作後發現全表掃描,執行計劃顯示索引未起作用。接著嘗試inverted索引,同樣全表掃描,索引未優化。

ngrambf_v1索引的優化過程展示:初始n=6時,全表掃描,執行計劃顯示索引未生效。調整n=48,查詢時間減少到4秒多,掃描數據減少至1500萬。n=30時,查詢時間進一步縮短至3秒多,掃描數據減少至約1253個數據塊。n=20時,查詢效率提升有限,之後無繼續優化的必要。

ngrambf_v1索引的性能與n的值有關,n不是越小越好。優化時需要考慮假陽性概率與過濾效率之間的權衡。在不同的查詢場景下,n的設置應靈活調整。本文示例中,優化效果主要針對長文本的查詢,而非[INFO]條件。建議針對確定的搜索條件,如日誌級別,創建單獨欄位並使用物化視圖或projection優化。

跳數索引僅適用於MergeTree引擎,其他引擎不支持此特性。

② 【分享】Notion零基礎 | 小白如何快速入門

Notion零基礎入門指南


大家好!


接下來,我們將一起踏上Notion的探索之旅,學習如何快速上手這款全能工具。


1. 注冊與下載

要開始使用Notion,首先在瀏覽器搜索「notion官網」,注冊新賬號,通過郵箱驗證。選擇個人版,如果沒有協作需求。


電腦端:點擊官網下載鏈接,根據系統安裝;手機或iPad在應用商店搜索「notion」下載。


2. 功能與用途

Notion相當於印象筆記+滴答清單+石墨文檔,整合日程、筆記和項目管理,具有豐富的模板、協作功能、文件導入和多樣化的資料庫視圖。


3. 模板復制與漢化

復制模板:訪問分享鏈接(鏈接略)點擊Duplicate,登錄賬號後即可在個人空間看到。漢化方法:下載Notion電腦版,安裝後替換韓文語言包(鏈接略)。


4. 快捷操作

Notion的斜杠命令是常用快捷鍵,輸入"/"後,選擇操作,界面會提供清晰的圖示指導。


5. 費用與限制

Notion有免費版(文件上傳限制5mb)和個人專業版(無限制),團隊版價格更高。免費版功能已能滿足日常需求。


今天的入門就到這里,下期我們將討論如何打造個人管理體系,期待你的繼續關注!

閱讀全文

與石墨文檔數據驗證怎麼復制粘貼相關的資料

熱點內容
投標人代理怎麼樣 瀏覽:256
理正勘察資料庫是什麼 瀏覽:332
甘肅紅酒怎麼代理 瀏覽:109
鄭州膏滋代理有哪些 瀏覽:232
注冊開戶地信息什麼意思 瀏覽:79
怎麼上傳接種信息 瀏覽:252
評論數據組是做什麼的 瀏覽:906
發行代理費一般多少 瀏覽:922
海鮮產品退貨怎麼處理 瀏覽:704
股權託管交易什麼意思 瀏覽:542
什麼程序寫app簡單 瀏覽:299
為什麼牛市場大跌 瀏覽:419
如何將數據去掉重復 瀏覽:530
mc取消數據顯示按什麼鍵 瀏覽:602
平價減肥產品有哪些 瀏覽:409
賽車3數據包放哪裡 瀏覽:268
銷售數據如何聯網 瀏覽:52
修改硬碟數據需要哪些 瀏覽:351
plc怎麼編輯數據子程序 瀏覽:796
江蘇化妝品代理怎麼找 瀏覽:947