QA@IT

Javaでjsoupを使用して、Webページをテキスト化したいが、改行が消えてしまう

6339 PV

Javaからjsoupを使用して、以下のようにテキスト化をしようと考えたのですが、行き詰まっておりまして、アイデアを貸して頂きたいです。

//Fileの準備
File outFile = new File("./assets/out.txt");
BufferedWriter bw = new BufferedWriter(new FileWriter(outFile));
//URLを指定して、HTMLを取得
Document doc = Jsoup.connect(urlStr).get();
Elements es = doc.select(".entry-kiji");
for(int i = 0;i < es.size();i++){
  Element e = es.get(i);
  bw.write(e.text());
}

urlStrは、某ブログの記事と考えて下さい。
HTMLの記事をテキスト化して、テキストファイルに出力したいのですが、どうもbrタグやpタグを改行にしてくれず、1行の文字列にしてしまっているのです。

どうにかして、brタグなどの改行を活かしたまま、テキストファイルに出来ないでしょうか?
どうかよろしくお願いします。

回答

brを改行コード( ¥n とか)に置き換えてみてはどうでしょうか。

編集 履歴 (0)
  • BRタグの他、Pタグもありますし、BRタグだけでも書き方がいくつかあって、安定しないと思ったのです。
    JSoupを使ってHTMLをパースして、分解して文字列を取得する事にしました。
    -
ウォッチ

この質問への回答やコメントをメールでお知らせします。