Elasticsearch簡史:源自給老婆開發(fā)烹飪App
作者 | Diana Kupfer 譯者 | 張健欣 策劃 | 萬佳
原文鏈接:https://jaxenter.com/elasticsearch-founder-interview-112677.html
Elasticsearch 是如何誕生的?本文回顧了 Elasticsearch 創(chuàng)始人 Shay Banon 的創(chuàng)業(yè)經(jīng)歷和 Elasticsearch 的誕生歷程。
當今,Elasticsearch 如此出名,從 GitHub 到 Guardian,許多大型企業(yè)都用它來幫助自己理解用戶交互數(shù)據(jù)并提升它們的搜索結(jié)果。
2004 年,Shay Banon 開發(fā)了 Compass,這是一個基于 Lucene 技術(shù)的應用。回憶起 Compass 的誕生,他的臉上總會掛滿微笑。某種意義上,Shay Banon、Compass 與 Lucene 的關(guān)系是一種偶然。
那時,他剛結(jié)婚。為支持妻子成為廚師的夢想,他們搬到倫敦。Shay Banon 正值失業(yè)狀態(tài),急需一份工作,所以他決定試試一些新技術(shù),讓自己的技能更符合當前時代的需求。因為只有真正嘗試構(gòu)建一些東西時,新技術(shù)才能發(fā)揮作用,所以他決定構(gòu)建一個烹飪 App,讓妻子可以用來搜索她在烹飪課程中收集的烹飪信息。
為開發(fā)這款 App,他認真比較了很多不同技術(shù)的優(yōu)缺點。在他眼里,這款 App 的核心是一個搜索框。只要你在這個搜索框中輸入一個概念、一個想法或者一種配料,它就可以開始搜索可能相關(guān)的烹飪知識。很快,他接觸到 Lucene,它當時是 Java 上可用的搜索庫。他說:“我沉浸其中,嘗試在典型的 Java 應用中簡化 Lucene 的使用。這個過程中誕生了 Compass?!?/span>
Shay Banon 被這個項目深深吸引,把更多的時間和精力轉(zhuǎn)向這個項目,而非烹飪 App 本身。幾個月后,他決定把它開源,而 Compass 很快流行起來。Compass 允許用戶輕松地將他們的領(lǐng)域模型(在典型程序中映射應用程序或業(yè)務(wù)概念的代碼)映射到 Lucene,方便地索引,然后輕松地搜索它們。這種自由讓越來越多的人開始使用 Compass 和 Lucene,但是他從未預料到這種情況。
假設(shè)在你的金融應用程序中有一個交易模型,你可以輕松地使用 Compass 將該交易索引到 Lucene 中,然后搜索它,并自由地搜索交易的任何方面信息,并允許用戶將這種自由傳遞給他們的用戶,這被證明是一個功能非常強大的概念。
“實際上,這讓我可以與實際用戶交談和工作,他們和我一樣,發(fā)現(xiàn)了搜索在向用戶提供業(yè)務(wù)價值方面所具有的驚人能力。”Shay Banon 說。
10 年后的今天,它就是 Elasticsearch 的基礎(chǔ)!
Shay Banon 認為,雖然自己可能比大多數(shù) Apache Lucene 開發(fā)者更早參與這個項目,但是許多開發(fā)者的全心投入,將 Lucene 帶入一個全新的發(fā)展水平。
在 Compass 和 Elasticsearch 早期,他花費無數(shù)個小時,與 Mike McCandless 和 Simon Willnauer 這樣的人討論 Lucene 的方方面面。
他說:“當開始 Elasticsearch 時,我想確保我們建立的公司能保持 Apache Lucene 的快速發(fā)展速度和卓越水平。讓我興奮的是,從一開始就有 Simon、Uri Boness 和 Martijn Van Groningen 這樣的 Lucene 專家參與其中。即便如此,如果你當時問我,我也絕不會想到今天我們能吸引如此強大的專注于 Apache Lucene 的團隊。“
在 Shay Banon 看來,Elasticsearch“擴展了”Apache Lucene 的領(lǐng)域。例如,推動 Apache Lucene 變得更具彈性的需要,意外地(從 Lucene 的角度)強調(diào)索引速度,或者在工具方面對 Lucene 的可見性。
“每一天,我都會聽到一個 Lucene 開發(fā)人員說‘我從未想過 Lucene 能用來解決這種問題’,或以這種方式使用。對我來說,這太棒了!因為我們正在創(chuàng)造一個環(huán)境,在這個環(huán)境中,使用 Elasticsearch 平臺的個人之間存在著一種創(chuàng)造性的聯(lián)系,正是這種聯(lián)系促使 Apache Lucene 向前發(fā)展。同時,作為一家公司,我們有能力為我合作過的最有才華的開發(fā)群體之一提供機會去實現(xiàn)它?!?/span>
當 Elasticsearch 不再是個人項目時,他們圍繞它成立了一家公司,一個很大的好處是可以在 Elasticsearch 本身的發(fā)展上投入更多資金。除了 Shay Banon,公司的另一位創(chuàng)始人 Simon Willnauer 帶領(lǐng) Elasticsearch 和團隊,開始將它推向一個全新的水平。他的首要任務(wù)之一是為 Elasticsearch 創(chuàng)建一個全新的測試基礎(chǔ)設(shè)施(靈感來自 Apache Lucene 測試基礎(chǔ)設(shè)施,包括隨機測試,順便說一句,這是一個很棒的話題)。
隨著測試工作的不斷深入,在 Shay Banon 看來,構(gòu)建分布式系統(tǒng)最重要的一個方面就是測試和驗證其行為的能力。從概念上講,很多人都能想到分布式系統(tǒng),它意味著不同的進程,在不同的機器上,通過網(wǎng)絡(luò)運行。當涉及到測試時,緊隨其后的一個想法是,它應該被如何測試。這將創(chuàng)造一個非常復雜的測試工具,需要很長時間才能運行,而且故障發(fā)生時,它很難進行調(diào)試。
“異??焖俚摹睌?shù)據(jù)搜索 – 通過 elasticsearch.com
在 Elasticsearch,這家公司投入了大量時間來構(gòu)建一個測試工具,它能作為“常規(guī)”集成測試的一部分運行其分布式測試。這意味著,在單個 JVM 中,運行 Elasticsearch 的每一次測試時,用戶就可以啟動并操作整個集群。這包括一些簡單的事情,例如在索引數(shù)據(jù)時回滾重啟,也包括一些更有趣的測試,例如網(wǎng)絡(luò)斷聯(lián),一直到模擬長 GC 暫停,所有這些都是驗證一個分布式系統(tǒng)行為的關(guān)鍵。
能依賴這樣的基礎(chǔ)設(shè)施,并且可以非常簡單快速地運行這些測試,能構(gòu)建一個更具彈性的系統(tǒng),并且更容易暴露“陰暗角落”和邊緣情況。
顯然,構(gòu)建一個分布式系統(tǒng)還需要很多,但正如 Simon 所說,“如果它沒有測試,你怎么知道它能工作呢?”這是構(gòu)建一個分布式系統(tǒng)的最基本的部分之一。
當今的企業(yè)正被數(shù)據(jù)淹沒,他們希望能理解這些數(shù)據(jù)并從中有所洞見。他們希望以最簡單的方式實現(xiàn)這一點,獲得最大的價值。
“事實證明,搜索是實現(xiàn)這種目標一種很好的方式。當我說搜索時,指的是更廣泛意義上的搜索,就像我個人最初開發(fā)烹飪 App 一樣,個人希望從數(shù)據(jù)中獲得見解和知識。當我們說 Elasticsearch 中的搜索時,指的是自由文本搜索、結(jié)構(gòu)化搜索和分析的結(jié)合,以最純粹的方式,無論數(shù)據(jù)量多大,都是實時的?!盨hay Banon 說。
還記得《少數(shù)派報告》(Minority Report)中 Tom Cruise 的角色與他所探索的數(shù)據(jù)交互場景嗎?不斷地學習和塑造他所追求的東西,在沒有任何限制的情況下實時放大縮小?這就是這家公司試圖讓用戶用 Elasticsearch 做的事(雖然沒有花哨的揮手互動,至少現(xiàn)在還沒有)。
這是一個宏偉目標。Shay Banon 堅信有能力實現(xiàn)它?!拔覀兊挠脩舨粩喙膭钗覀儯Ⅱ炞C了我們走在正確的路上。用戶每天都告訴我們,他們用我們產(chǎn)品實現(xiàn)的目標是他們從未想過的。他們一直尋找創(chuàng)新的方法來使用 Elasticsearch,而且,我認為這是一個偉大產(chǎn)品的標志,它允許用戶達到他們最初從未想象過的創(chuàng)造性水平”。
Shay Banon 在 Elasticsearch 中遇到的第一個障礙是,之前的開源項目 Compass 試圖讓用戶在更窄的范圍內(nèi)了解他所看到的。那時,當對用戶說“搜索”時,他們不會立即掌握可以實現(xiàn)的所有可能性。
他回憶說:“10 年前,我對它一無所知。但是,通過構(gòu)建一種允許用戶將任何領(lǐng)域模型映射到“搜索”(即 Lucene),使得跨越這種心理障礙變得更加簡單,突然之間,使用案例爆炸性增長,Compass 和 Lucene 被用來賦能‘非典型搜索用例’?!?/span>
使用 Elasticsearch,通過標準化 JSON 和 RESTful 接口,用戶借此可以做很多事。很快,在一種更廣泛的基礎(chǔ)上:從各種各樣的開發(fā)人員,從不同的編程語言,到不同的框架,到許許多多不同的用例。
最后,這一切歸結(jié)為搜索的力量,從技術(shù)上來說,是 Elasticsearch 和 Apache Lucene 的力量。就實現(xiàn)而言,數(shù)據(jù)是典型的 Web 頁面或者 word 文檔,還是 Foursquare 上的地理位置、銀行里的一筆交易、web 服務(wù)器上的一條日志,或者一種度量標準,其實并不重要。所有這些數(shù)據(jù)實際上都是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的組合,無論數(shù)據(jù)的形式或大小如何,人們都希望對其進行探尋、搜索并擁有《少數(shù)派報告》那樣的體驗。
免責聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!