国会図書館デジコレから全文テキストをダウンロードするだけのブックマークレット
リニューアルに際して、ブックマークレットの箇所も更新しました。(2022/12/21)
使えなくなってたのでまた更新しました。(2023/01/05)
これは何の記事
国会図書館次世代デジタルライブラリーで古典籍が検索できるようになって、いよいよすごいことになっている。
/
— 国立国会図書館 NDL (@NDLJP) 2022年10月26日
古典籍資料の全文検索が可能になります!
\
11月1日(火)に、実験システム #次世代デジタルライブラリー に古典籍資料6万点のOCR全文テキストデータを追加します。これまでの明治以降の図書に加え、江戸期以前のくずし字等資料の全文検索も可能となります。https://t.co/9KT1CdaSYa pic.twitter.com/aOz7OmyWew
次世代デジタルライブラリー上でテキストのダウンロードもできる(右下の「この資料の全文テキストデータ」をクリック)のだけれど、ページが本文検索をメインとした作りになっていて、「資料を探してテキストをダウンロード」するのがちょっとめんどくさいので、ブックマークレットを作って対応する。
使い方
- ブラウザでブックマークを追加して、URLに以下のコードをペースト(タイトルは適当でOK)
javascript:(function(){location.href=location.href.replace(/dl.ndl.go.jp\/pid\/(.+?)\/.+$/,"lab.ndl.go.jp/dl/api/book/fulltext/$1");})();
2. デジタルコレクションで好きなページを開いて、1で作ったブックマークレットをクリック (データが用意されてない場合は This PID is not allowed と出ます)
なんてことないブックマークレットで、多分デジコレ側にもそのうちダウンロード機能が付くのではないかと思いますが、それまでの繋ぎとしてどうぞ。
以下のリンクで試してみてください。 dl.ndl.go.jp
まとめてダウンロードしたいときは先にリストを https://lab.ndl.go.jp/dl/api/book/fulltext/[PID] の形でまとめておいて、以下のようなツールでまとめて開くと楽かもしれません。(力技…)*1
*1:とりあえずページだけ用意されていてテキストがない、みたいなのがあるっぽくて、その場合は空のデータが返ってきます