ASPseek是由SWsoft公司開發並授權下GNU GPL自由軟件的互聯網搜索引擎軟件。
ASPseek包括一個檢索機器人,一個搜索守護程序,和一個CGI查找前端的。它可以索引多則幾百萬的網址和搜索詞和短語,使用通配符,並做了布爾搜索。搜索結果可以被限制在給定的,站點或Web空間(設置場所),並依相關的時間段(PageRank是使用)或日期。
ASPseek是一個多站點優化(螺紋指數,異步DNS查找,通過現場,網絡空間分組的結果),但可用於搜索一個網站也是如此。 ASPseek可以與多個語言/編碼一次(包括多字節編碼,如中國),由於統一存儲模式下工作。其他功能還包括禁用詞和ispell的支持,字符集和語言猜測者,HTML模板搜索結果,文摘,和查詢詞突出。
ASPseek是用C ++編寫使用STL庫,並使用SQL數據庫和存儲二進制文件的組合。
以下是“ASPseek”一些主要特點:
通過數百萬文件的能力來索引和搜索
·使用ASPseek,你可以建立一個數據庫和搜索多個站點,以及每個結果查詢將返回快,即使你有幾百萬的索引文件。當然,這依賴於硬件,所以不要指望“老好人”的i486機器來處理每一個網站以.com域名。一切都取決於CPU(S),內存,磁盤速度等,所以做你自己之前,你買的測試專用硬件。
·這是ASPseek高容量優化的事實不應該用它來搜索自己的網站,其中包含的文件幾百阻止你 - 它的作品也有。
結果很好的相關性
·搜索引擎的目的是要找到想要的用戶。可以有數千個發現作為搜索查詢的結果的URL,但它可以全部是不相關的,所以用戶會不滿意。
·輸出結果ASPseek由相關(或等級)排序,但排名的計算不是一件容易的事。開發商想盡辦法將最大和最新的技術引入到ASPseek發動機,同時保持良好的搜索速度。
ispell的支持
·當ASPseek被用於ispell的支持,searchd的(1)可以隨意找到各種形式的所有指定詞(例如:創建 - >創建或創建或創建)。因此,它可以讓你找到的所有不同形式的單詞。
統一存儲模式
·ASPseek可以存儲大約為Unicode文件信息,從而可以實現多語言搜索引擎。所以,你可以索引和搜索英文的文件,俄羅斯乃至中國,都在一個數據庫中。
HTTP,HTTPS,HTTP代理,FTP(通過代理)協議
·作為ASPseek是一個網絡搜索引擎,它使用HTTP協議的網站的索引。 ASPseek還支持安全的HTTPS://協議。不直接支持FTP協議,但您可以通過代理服務器使用代理服務器(如魷魚)和索引FTP站點。
·ASPseek支持HTTP的“基本授權”功能,讓你可以索引受密碼保護的區域(在您的Intranet例如私人信息)。
文/ html和text / plain的文件類型的支持
·ASPseek能理解寫在HTML文件和純文本文件。這些都是格式網吧最流行。
·其他格式,如PDF,RTF等,可以與任何外部的程序/腳本,它能夠將其轉換格式,HTML或純文本的幫助支持。
多線程設計,異步DNS解析器等
·ASPseek使用POSIX線程,這意味著,一個處理具有並行運行多個線程。因此指數從下載網站很多很多的搜索查詢的文檔同步,和搜索守護進程。這不僅有助於ASPseek擴展以及對SMP(多處理器)系統,而且還提高了索引速度,因為如果一個線程大多數時間會在等待來自網絡數據中度過。
·一件事,緩慢的索引過程下來不少是DNS查詢(使用確定的服務器名稱IP地址的過程)。為了避免延誤,異步查詢(查詢是由單獨的專用程序進行)和IP地址高速緩存來實現。
禁用詞
·停用詞是一個詞沒有意義本身。例如:是,是,在這。搜索在也沒用,所以這樣的話被排除在搜索查詢。禁用詞也被排除在索引數據庫中,因此數據庫將變得更小,更快。
·有在ASPseek沒有“內置”停止詞,它們在啟動過程中從文件被加載。許多禁用詞文件針對不同的語言帶有ASPseek。
字符集guesse
·有些故障或配置服務器不告訴客戶,他們提供的內容的字符集。如果你是這樣的索引服務器,或使用ASPseek指數FTP服務器(FTP協議並一無所知字符集),字符集猜測者可以用來對付它。猜測者字符集字使用頻率表(稱為langmaps),以確定正確的字符集。
機器人排除標準(robots.txt的)支持
·ASPseek完全支持這一標準。其目的是為網站作者的講述機器人(例如,ASPseek指數(1)),以跳過索引其網站的一些目錄。
·欲了解更多信息,請參閱http://www.robotstxt.org/wc/robots.html
設置來控制網絡帶寬的佔用和Web服務器的負載
·您可以精確地控制網絡帶寬指標(1)使用。恰好,可以限制為給定時間的日使用的索引(1)的帶寬(以每秒字節數)。例如,您可以限制在工作時間的帶寬,以便人們在你的辦公室將不會遇到上網速度慢。
·您還可以設置兩個查詢到相同的Web服務器之間的最短時間,這樣就不會超載,並獲得到其膝蓋,而你運行指數(1)。
實時異步索引
·一些搜索引擎需要搜索應該停止對數據庫更新的時間。 ASPseek並不需要它,這樣你就可以搜索不停。
·更多地說,有索引的一個特殊模式稱為“實時”索引。您可以使用它進行少量的文件,並盡可能該文件被下載和處理,變化是在搜索界面立即可見。此功能是一個很大的幫助,如果您正在構建的搜索引擎,如在線新聞等與快速變化的內容頁面
·注意,多個文件中的“實時”數據庫是有限的。這是大約1000在我們的硬件(您的里程可能會有所不同),以及更多的文件,你必須在“實時”數據庫中,慢將索引到的(並且只有)數據庫的速度。這不會影響搜索速度雖然。
·從“實時”的數據庫文件被以正常方式運行索引(1)後移動到正常的數據庫。
依相關或按日期結果
·搜索引擎通常將首先返回最相關的結果。但是,如果你正在尋找最新的頁面,你可以告訴ASPseek通過的最後修改日期對結果進行排序,因此最近修改(或創建)的頁面將首先顯示。
摘錄,查詢詞突出
·摘錄是一塊發現文檔的文字搜索強調的,只是給的文件是關於什麼的想法。可以定制摘錄顯示和它們的長度的數目。如果將禁用摘編,文檔的開頭將被顯示。
·每個發現的文件是伴隨著的“網頁快照”鏈接。 ASPseek保持處理每一份文件的本地壓縮副本,所以用戶可以看到(可選)的整個文件強調了搜索的話,即使它已經從原來的網站中刪除(這有時會發生)。
按站點分組結果
·結果從一個站點可以組合在一起。如果通過網站分組上,只有兩個結果都顯示來自同一個站點默認,並且用戶可以看到從同一網站其他頁面通過以下鏈接“從......更多結果”。
克隆
·克隆是在不同的位置相同的文檔。他們被檢測並組合在一起,因此用戶將不會看到一個完整的URL,以相同的文檔頁面。
·克隆檢測通常是通過一個網站(從不同的網站,所以相同的文件不被視為克隆)的限制,但可以通過重新編譯ASPseek用--disable-克隆逐個站點選項進行更改。
空間和子集
·空間是集網站。所以,如果你想提供搜索縮小到某個區域,您可以創建一個空間,這個空間中進行搜索。只有整個網站(例如http://www.mysite.com/)允許被包括在空間。
·亞群也可以用來限制搜索範圍。您可以創建子集,並把網址面具(如http://www.mysite.com/mydir/%)成,然後限制搜索範圍,只給一部分。
·您可以限制搜索範圍不只有一個而是幾個子集或空格。
為易於定制搜索結果的HTML模板
·您可以自定義的搜索頁面,所以他們會看起來像,並與您的網站的其餘部分無縫集成。這是通過搜索模板文件的簡單編輯完成。
安裝
GZIP -dc aspseek-1.2.10.tar.gz |焦油XF -
CD aspseek-1.2.10 /配置
使
蘇
使安裝
按類別搜索
熱門軟件
-
Xplore 3 Jun 15
-
Zuma Deluxe 20 Feb 15
-
CentOS Live CD 22 Jun 18
-
Damn Small Linux 17 Feb 15
-
Openfiler 12 May 15
-
Wifislax 9 Aug 16
-
GChemPaint 2 Jun 15
評論沒有發現