足夠“多”的特征關(guān)鍵詞是快速定位的關(guān)鍵
有朋友問我:在比較慢的機器上Resin不能自動啟動問題我是怎么找到在“啟動腳本中加入15秒的延遲”這個解決方法的。我當時遇到這個問題后:首先就是把錯誤日志中的"Can't connect to parent"字樣復(fù)制下來,然后在google上查:resin2 "Can't connect to parent",從Google找到的資料大部分在Resin的BUG跟蹤報告,F(xiàn)AQ和郵件列表中。雖然這些文檔中沒有給出一個比較直接的答案,但從中我獲得了大量的相關(guān)信息,從而方便我對問題的分析。整個查找/解決過程大約用了10個小時左右。如果用戶理解了使用更多的關(guān)鍵詞可以更快的定位到所需要的信息這一點的話,那么每次查詢時用戶使用的關(guān)鍵詞個數(shù)就反映了用戶的搜索引擎使用水平,根據(jù)在1997年,英語國家的用戶平均每次上網(wǎng)查詢鍵入2.1個單詞,歐洲其他國家為1.5個單詞;到1999年,英語國家是2.7個單詞,歐洲國家是2個單詞。英語國家用戶的經(jīng)驗值要領(lǐng)先其他國家將近1年半的時間。中文搜索引擎也將經(jīng)歷一個用戶經(jīng)驗值逐漸提高的過程。
從中我們可以想象在互聯(lián)網(wǎng)資源的使用水平上中國和國際先進水平的差距。
提高搜索結(jié)果質(zhì)量的途徑:使用英文專業(yè)術(shù)語、文件類型過濾、專業(yè)站點站內(nèi)搜索2000年1月,Excite公司的科學(xué)家對全球約6.4億的Internet網(wǎng)頁進行了語言認證,發(fā)現(xiàn)其中英文信息內(nèi)容占了71%,而日文是6.82%、德文是5.08%、法文是 1.75%、中文則為1.52%。如此豐富多彩的英文海量數(shù)據(jù)庫,勢必吸引著英語國家的上網(wǎng)用戶不斷應(yīng)用搜索引擎去尋找那些有價值的信息內(nèi)容。使用英文專業(yè)術(shù)語:學(xué)會把自己的問題翻譯成英文后再查最近一次經(jīng)歷是找一個Linux應(yīng)用的安裝文檔,但用中文關(guān)鍵詞搜出的內(nèi)容大部分很多都很舊,甚至有基于RedHat5.2的,而且絕大部分只是的把臺灣開發(fā)人員寫的繁體板HOWTO轉(zhuǎn)成了簡體中文,此外,由于一些計算機名次中文名稱的翻譯不一致也限制了搜索結(jié)果的數(shù)量和質(zhì)量。所以目前來說,質(zhì)量比較高的仍然基于是相應(yīng)領(lǐng)域英文關(guān)鍵詞的搜索。比如,我在解決Perl源代碼格式美化的過程中學(xué)到了 indent,pretty print和source code beatufier這些術(shù)語。通過這些關(guān)鍵詞,也方便我找到了其他開發(fā)語言的代碼格式美化工具。
文件類型過濾:
Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內(nèi)容比一般的HTML經(jīng)過了更多的整理,學(xué)術(shù)價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。可以通過"filetype:pdf keywords"這種格式過濾返回結(jié)果的文件類型,從而提高搜索結(jié)果的質(zhì)量。
利用站內(nèi)搜索減小搜索范圍:
如果某個站點的結(jié)果數(shù)很多,Google會類聚成2條,并可以通過“www.example.com 站內(nèi)的其它相關(guān)信息”執(zhí)行站內(nèi)檢索,在查詢的命令中其實就是"site:www.example.com keywords",所以很多時候可以進一步通過站內(nèi)檢索將搜索結(jié)果限制在某些專業(yè)站點的范圍內(nèi),這樣很多問題的資料往往可以從其官方站點的FAQ或郵件列表HTML歸檔中查到。
【 微信掃一掃 】