QA@IT

そのギモンは、あなただけのもの?

ITエンジニアが日々遭遇する課題やトラブルはたいてい、1人だけが出合うものではありません。QA@ITで質問・回答を共有しませんか?

タグ #tika で絞り込んだ結果 - 解除

pythonで以下の様にTikaのモジュールでPDFファイルをテキストに変換しました。 PDFファイルには「虻」という漢字が含まれますが、「uedd8」に変換(文字化け?) されてしまいます。漢字に変換するにはどうしたら良いでしょうか。 import re, pathlib, tika, pandas as pd from pandas import DataFrame from tika ...