`
liuzejian4
  • 浏览: 58175 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

Load a Document from a File(从一个文件中加载文档)

 
阅读更多
Problem
You have a file on disk that contains HTML(你有一个文件他包含html), that you'd like to load and parse(你想加载并解析它), and then maybe manipulate or extract data from(并操作的它或者获得他的数据).

Solution
Use the static Jsoup.parse(File in, String charsetName, String baseUri) method(使用静态Jsoup.parse(File in, String charsetName, String baseUri)方法):

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Description
The parse(File in, String charsetName, String baseUri) method loads and parses a HTML file(这个arse(File in, String charsetName, String baseUri)方法加载并解析一个HTML文件). If an error occurs whilst loading the file(如果加载的文件有个错误), it will throw an IOException(会抛出IOException错误), which you should handle appropriately(你用合理的方法处理它).

The baseUri parameter is used by the parser to resolve relative URLs in the document before a <base href> element is found(baseUri用参数的解析器能够解析相对url的文档). If that's not a concern for you, you can pass an empty string instead(如果你不需要可以传你个空字符串).

There is a sister method parse(File in, String charsetName) which uses the file's location as the baseUri(它的姐妹方法parse(File in, String charsetName)它使用文件的位置baseUri吗). This is useful if you are working on a filesystem-local site and the relative links it points to are also on the filesystem(这是有用的,如果你工作在文件系统的本地站点和相对链接,它指向也在文件系统。).
分享到:
评论

相关推荐

    java实现多个docx文档合并(基于docx4j)

    docx4j是一个强大的开源库,专门用于处理Microsoft Office Open XML (OOXML) 文件格式,如.docx。 首先,你需要确保你的开发环境是JDK 1.7或更高版本,并且已经安装了Eclipse IDE。为了开始项目,你需要下载docx4j...

    python批量合并多个word文档.rar

    这里的`Document`类代表一个Word文档,`file_path`是你要加载的文档路径。 3. **合并Word文档** 要合并文档,我们需要创建一个新的`Document`对象,然后将其他所有文档的段落逐一添加到新文档中: ```python ...

    LabVIEW 写入与读取配置文件

    2. .xml 文件读取:通过"Load XML Document"函数加载.xml文件,然后使用"Find Node"或"Get Child Nodes"找到所需的数据节点,再用"Get Node Value"提取信息。 四、实际应用示例 在实际项目中,可能需要在程序启动...

    Python代码源码-实操案例-框架案例-如何批量替换Word文档中的指定内容(包括页眉).zip

    使用`docx`库的`Document`类可以加载一个现有的Word文档。 ```python from docx import Document def load_document(file_path): return Document(file_path) ``` 2. **遍历文档段落**: `Document`对象有...

    java Html生成PDF文件 PD4ML

    2. 创建PDF文档:使用PD4ML提供的`Document`类实例化一个新的PDF文档。你可以设置页面大小、边距等属性。 3. 加载HTML:使用`Document`对象的`processHtml()`方法加载HTML内容。这个方法接受一个URL、文件路径或者...

    VC .net将图片保存在XML文件中.rar

    1. 加载XML文档:使用`XmlDocument.Load`方法加载XML文件。 2. 获取XML元素:找到包含图片数据的XML元素。 3. 解析Base64字符串:从元素的子节点获取Base64字符串,并使用`Convert.FromBase64String`转换回字节数组...

    文档XML的读写

    1. **XmlDocument**:这是一个完整的DOM(Document Object Model)实现,用于加载整个XML文档到内存中,方便进行遍历和修改。 2. **XmlNode** 和其子类:如XmlElement、XmlAttribute等,它们代表XML文档的节点结构...

    android 读取PDF文件

    `PDFDocument`对象负责加载PDF文件,而`PDFView`的`fromFile()`方法则用来创建一个加载任务,通过调用`load()`方法来执行加载操作。如果你需要处理加载进度或者错误,可以使用监听器: ```java pdfView....

    WPF解析XML文档绑定到UI前台

    一旦XML文档加载并解析,我们可以创建一个ViewModel,将XML数据映射为属性,然后在UI上绑定这些属性。例如,如果XML文档包含一系列`&lt;item&gt;`元素,可以创建一个`ItemList`属性,并将其设置为`ObservableCollection...

    C# 读取word文档和图片

    Image image = Image.FromFile("path_to_your_image.jpg"); // 获取图片信息 int width = image.Width; int height = image.Height; string format = image.RawFormat.ToString(); // 显示图片 PictureBox ...

    ZendFramework中文文档

    3.2.2. 高级使用:持久一个 DbTable 结果对象 3.2.3. 高级用法示例 3.3. 摘要式认证 3.3.1. 简介 3.3.2. 规范(Specifics) 3.3.3. 身份(Identity) 3.4. HTTP 认证适配器 3.4.1. 简介 3.4.2. 设计回顾 ...

    OFD文件使用插件ofdViewer预览

    在IT行业中,OFD(Open Fixed Document Format)是一种由中国国家标准化管理委员会制定的电子文档格式,主要用于替代PDF,实现国产化、安全化的电子文档存储和交换。本篇将重点介绍如何利用JavaScript和Vue框架,...

    关于在c#中如何解析XML文件,并在DataGridView中显示

    - 或者使用`XmlDocument`类的`Load()`方法,传入XML文件的路径,加载整个文档。 ```csharp string xmlFilePath = "path_to_your_xml_file.xml"; XmlDocument xmlDoc = new XmlDocument(); xmlDoc.Load(xmlFilePath...

    PDF文件的读取和显示的源代码

    通过`poppler::document::load_from_file`函数读取PDF文件,这将返回一个表示整个PDF文档的实例。 3. **页面操作**:获取PDF文档的页面数,可以调用`poppler::document::num_pages`。然后,使用`poppler::document:...

    asp.net操作xml文档

    在项目"LiangyvEmployees"中,可能涉及到的是读取或写入一个名为"Employees.xml"的文件,这个文件可能包含了员工信息,如姓名、职位、工资等。通过ASP.NET页面,用户可能能够查看、添加、编辑或删除员工数据。具体...

    VC++将pdf文件转换为txt格式提取文字内容

    2. **加载PDF文件**:使用Poppler提供的API,如`poppler::document::load_from_file()`函数,加载PDF文件。 3. **解析页面**:对于每个页面,你可以使用`poppler::page::get_text()`方法获取文本内容。每个页面通常...

    Xml-File-Code.zip_xml visual basic_xml visual basic

    在上述代码中,我们遍历XML节点,将每个节点的子节点值合并成CSV格式的行,然后写入到一个新的CSV文件中。 总结来说,通过Visual Basic与XML的结合,你可以实现XML文件的读取、解析以及数据的转换。这使得XML成为一...

    android PDF文件的展示阅览

    - 在Java或Kotlin代码中,获取到`PDFView`实例,并使用`loadDocument()`方法加载PDF文件。文件可以从本地存储、网络或者资源中加载。例如,从本地加载: ```java PDFView pdfView = findViewById(R.id.pdfView); ...

    C#操作XML文件完整源码2019

    在提供的压缩包文件中,`Content_Types`.xml是一个特殊文件,用于指示不同扩展名的文件在包内的MIME类型,这对于处理Office Open XML文档(如.docx)至关重要。`word`、`_rels`和`docProps`目录则分别包含了文档的...

    C#实现对XML文件的基本操作.zip_BYK_C#实现对XML文件的基本操作

    首先,我们需要加载XML文件到内存,这可以通过`Load()`方法实现。例如: ```csharp XmlDocument xmlDoc = new XmlDocument(); xmlDoc.Load("path_to_xml_file.xml"); ``` 之后,我们可以使用XPath表达式或遍历...

Global site tag (gtag.js) - Google Analytics