Jerich HTML解析器是一個開源的,簡單的,但功能強大的庫完全用Java編寫。
它允許程序員處理和分析HTML文檔的一部分。
Jerich HTML解析器還採用了高層次的HTML表單操作函數
什麼是此版本中的新:
- 在錯誤修正:
- [3581664] CharacterReference.decode()不解碼包含數字實體 - ½ ¼ ¾ ¹ ² &sup3時; ∴
- [3311286] SourceCompactor不尊重TEXTAREA
- [3519131]渲染輸出時,與Element對象構造不正確。
- [3538829]字體裝飾對塊邊界渲染輸出不正確。
- 在Segment.getAllStartTags(名稱)和Segment.getFirstElement(名稱)不起作用。
- 在一個轉義服務器標籤中常見的服務器標籤的結束符被錯誤地認為是逃脫標籤的結束符。
- 在變化,將影響現有項目的行為:
- [3427073] Segment.getStyleURISegments()現在包含風格元素的含量,以及風格的屬性值。
- [3427927] Segment.getURIAttributes()現在包括對象和小程序元素的存檔屬性。
- 在評論裡面的腳本元素在全序列解析不再承認。此前,他們的兼容性與認可的主流瀏覽器,但最新的瀏覽器的行為發生了變化。
- 在改變了所有解析錯誤日誌級別從信息到錯誤,並且從Source.fullSequentialParse()諮詢信息的日誌級別WARN到INFO。在以前的水平了諮詢郵件更高的嚴重性要比解析錯誤,防止日誌系統從藏身的諮詢信息,同時顯示分析錯誤。字符編碼警告維持不變,WARN水平。
- 在改變了Renderer.renderHyperlinkURL(開始標記)方法的行為,以便在相對URL不渲染。
- 在改變了渲染器的行為,以超鏈接的元素內容不渲染,如果是一樣的超級鏈接URL,忽略任何HTTP://前綴或/後綴
- 在EndTag.tidy()現在的右括號之前刪除空格。
- 添加源(文件)的構造。
- 添加OutputDocument.getSegment()方法。
- 添加OutputDocument.remove(INT開始,詮釋完)方法。
- 添加Renderer.setHRLineLength()方法。
- 添加RenderToText.jsp web應用示例。
- 添加Segment.getRowColumnVector()方法。
- 在編碼檢測現在忽略了有一個代碼單元大小的初步編碼兼容的meta標籤中指定常見的編碼。
- 在升級到以下記錄的API:SLF4J-API-1.7.2,log4j的-1.2.17
如果該參數包含大寫字母
什麼3.1版本是新的:
- 在錯誤修正:
- [2793556]在Segment.getAllStartTags無限循環()
- 在Segment.getAllElements無限循環()
- 在Segment.getFirst *方法邊界外段返回段。
- 在Segment.getAllElements方法沒有返回在某些情況下,全封閉式的元素。
- 在固定文檔錯誤。
- 添加StreamedSource類。
- 在變化,將影響現有項目的行為:
- 從類改為ParseText接口。
- 在Segment.getNodeIterator()現在返回作為單獨的節點字符引用。
- 在基於屬性值的正則表達式添加標籤的搜索方法。
- 在基於HTML類屬性添加標籤的搜索方法。
- 添加靜態Source.LegacyNodeIteratorCompatabilityMode物業暫時恢復Segment.getNodeIterator()功能,以前的版本。
- 在刪除的char []的搜索方法ParseText。
- 添加CharacterReference.appendCharTo(可追加)方法。
- 添加OutputDocument(段)構造函數。
- 添加StreamedSourceCopy示例程序。
在Segment.getAllElements方法
什麼版本3.0是新的:
- 在錯誤修正:
- 在字符引用不正確解碼UTF-16編碼單元對。
- [2188446] Element.getDepth()和Element.getParentElement()返回不正確的結果,如果叫解析點播模式。
- 在評論現在公認的內部<腳本>元素。
- 在API的變化:
- 在變更包名net.htmlparser.jericho
- 在屬性值現在必須是字符串,而不是為CharSequence。
- 在刪除了所有廢棄方法/從以前的版本類。
- 在所有發現廢棄贊成獲得*方法,以應用一致的命名約定在所有標籤的搜索方法*方法。
- 標籤,元素和HTML元素的類不再執行HTMLElementName接口。 (使用靜態進口代替)
- 在所有的藏品,現在stongly使用泛型類型。
- 在改變FormControlOutputStyle類枚舉。
- 在改變FormControlType類枚舉。
- 添加CharStreamSource.appendTo(可追加)方法。
- 添加Source.iterator()方法。
- 在源代碼現在實現了Iterable。
- 在內部使用的StringBuilder獲得更好的性能。
- 添加Source.getNextStartTag(StartTagType)方法。
- 添加Source.getNextEndTag(EndTagType)方法。
- 添加Source.getPreviousStartTag(StartTagType)方法。
- 添加Source.getPreviousEndTag(EndTagType)方法。
- 添加Segment.getAllStartTags(StartTagType)方法。
- 在添加完所有Segment.getFirst *方法。
- 添加Renderer.renderHyperlinkURL(開始標記)的方法。
- 添加HTMLSanitiser示例程序。
- 在升級到SLF4J-API-1.5.6
代表的Unicode增補字符
未向下兼容
要求:
- 在Java 2標準版運行環境
評論沒有發現