徒労

今日試したこと

  • bk1からの書名の取得
    1. Webページから、ASINコードをbk1の検索ページへ投げるphpスクリプトを起動
    2. phpスクリプトはASINコードを受け取り、検索結果を返す(HTMLそのまま)
    3. Webページは帰ってきたHTMLファイルから、書名データに最も近い目印(ユニークなもの)を検索
      直後の目印も検索、それぞれの出現位置から書名を取り出す

という手順のはずがどうやっても文字化けする。SJISで帰ってきたものをURLエンコードするだけなのだが、どうも生のSJISで帰っていないような

  • 図書館の書名といくつかのサイトの書名との比較
    myrmecoleonさんのやられているhttp://myrmecoleon.sytes.net/search/bookstore.phpを弄っていたら、e-honの書名がいちばん図書館の書名に近いように思えたので
    最近借りた本20冊のいわき市立図書館の書名とAmazonbk1e-honとで書名を比較した一覧を調査した。ただし、これは全て同じ傾向かどうかはわからない。
書名 巻次 副書名 ASIN Amazon bk1 e-hon
陰陽師 滝夜叉姫・上   4163242708 陰陽師瀧夜叉姫() 陰陽師滝夜叉姫・上 陰陽師滝夜叉姫・上
陰陽師 滝夜叉姫・下   4163242805 陰陽師瀧夜叉姫() 陰陽師滝夜叉姫・下 陰陽師滝夜叉姫・下
新恐竜   進化し続けた恐竜たちの世界 4478860505 新恐竜 新恐竜〈br〉
進化し続けた恐竜たちの世界
新恐竜進化し続けた恐竜たちの世界
朝倉恭介   Cの福音完結篇 4796621350 朝倉恭介―〜Cの福音・完結篇 朝倉恭介〈br〉
Cの福音完結篇
朝倉恭介Cの福音完結篇
ターゲット     479661642X ターゲット ターゲット ターゲット
死都日本     406211366X 死都日本 死都日本 死都日本
震災列島     4062126087 震災列島 震災列島 震災列島
あいどる     4047912751 あいどる あいどる あいどる
ヴァーチャル・ライト     4047912247 ヴァーチャル・ライト
ヴァーチャル・ライト
鉄塔武蔵野線     410402001X 鉄塔武蔵野線 鉄塔武蔵野線 鉄塔武蔵野線
クーデター     4796611886 クーデター クーデター クーデター
Op.ローズダスト   4163245006 Op.ローズダスト() Op.ローズダスト Op.ローズダスト
Op.ローズダスト   4163245103 Op.ローズダスト() Op.ローズダスト Op.ローズダスト
マリア・プロジェクト     4048733303 マリア・プロジェクト マリア・プロジェクト マリア・プロジェクト
フェイク     4048735241 フェイク フェイク フェイク
キューブサット物語   超小型手作り衛星、宇宙へ 4767803993 キューブサット物語~超小型手作り衛星、宇宙へ
キューブサット物語超小型手作り衛星、宇宙へ
瀕死のライオン   4344012046 瀕死のライオン〈上〉 瀕死のライオン 瀕死のライオン
瀕死のライオン   4344012054 瀕死のライオン〈下〉 瀕死のライオン 瀕死のライオン
ウルトラ・ダラー     4103823038 ウルトラ・ダラー ウルトラ・ダラー ウルトラ・ダラー
ZERO   4344001060 ZERO〈上〉 ZERO ZERO
ZERO   4344001079 ZERO〈下〉 ZERO ZERO

全角空白は区別するために置き換えた
赤字は半角文字
AmazonはECS経由、bk1e-honはサイトよりコピー&ペースト

    • Amazonは上下等の扱いが一定ではない、また、―で副書名をつなげがちだが文字化けの要因になるし、半角全角が混載する
    • bk1はおおむね良いが長い書名を明示的に改行〈br〉したり、古い本やマイナーな本がない場合がある
    • e-honが一番正解に近い、全角スペースをデリミタにし分かち書きして検索すれば正しくヒットすると思われる

書名検索のキーとしてはe-honを使用するのが良いと思われる、が、取得の難易度としてはbk1と同じぐらいなのは良いとして
Amazonはアソシエイトプログラム、bk1ブリーダーがあるため書像、書名等のデータを使用することは正式に認められているが
e-honはおおぴらにやれないはず

「e−hon」で使用する文章、画像、デザインは著作権で全て保護されています。本サイトの全部または、一部を無断で転載、コピー、使用することを禁じます。当サイトの書籍の詳細内容情報には、「BOOKデータベース」を使用しています。
著作権者 (株)トーハン、日本出版販売(株)、(株)紀伊國屋書店日外アソシエーツ(株)

なので、現在のbk1から書名を取得する方向で進むしかないのかなと(改行はとる、文字化けは何とかする、bk1にないときはAmazonの書名で)
のりかかった船なのでやりますよ
まあ、今日はそんなところです。