QA@IT
«質問へ戻る

質問を投稿

Javaでjsoupを使用して、Webページをテキスト化したいが、改行が消えてしまう

Javaからjsoupを使用して、以下のようにテキスト化をしようと考えたのですが、行き詰まっておりまして、アイデアを貸して頂きたいです。

//Fileの準備
File outFile = new File("./assets/out.txt");
BufferedWriter bw = new BufferedWriter(new FileWriter(outFile));
//URLを指定して、HTMLを取得
Document doc = Jsoup.connect(urlStr).get();
Elements es = doc.select(".entry-kiji");
for(int i = 0;i < es.size();i++){
  Element e = es.get(i);
  bw.write(e.text());
}

urlStrは、某ブログの記事と考えて下さい。
HTMLの記事をテキスト化して、テキストファイルに出力したいのですが、どうもbrタグやpタグを改行にしてくれず、1行の文字列にしてしまっているのです。

どうにかして、brタグなどの改行を活かしたまま、テキストファイルに出来ないでしょうか?
どうかよろしくお願いします。

Javaからjsoupを使用して、以下のようにテキスト化をしようと考えたのですが、行き詰まっておりまして、アイデアを貸して頂きたいです。

```
//Fileの準備
File outFile = new File("./assets/out.txt");
BufferedWriter bw = new BufferedWriter(new FileWriter(outFile));
//URLを指定して、HTMLを取得
Document doc = Jsoup.connect(urlStr).get();
Elements es = doc.select(".entry-kiji");
for(int i = 0;i < es.size();i++){
  Element e = es.get(i);
  bw.write(e.text());
}
```

urlStrは、某ブログの記事と考えて下さい。
HTMLの記事をテキスト化して、テキストファイルに出力したいのですが、どうもbrタグやpタグを改行にしてくれず、1行の文字列にしてしまっているのです。

どうにかして、brタグなどの改行を活かしたまま、テキストファイルに出来ないでしょうか?
どうかよろしくお願いします。