Web情報抽出APIライブラリ IE APIs

Web情報抽出APIライブラリ IE APIs は,Webコンテンツから情報を抽出するためのPHP用の基本的なAPIライブラリです。

概要

IE APIs は,電子文書から特定の情報を抽出することを支援するためのAPI(アプリケーション・プログラム・インタフェース)を提供するPHP用ライブラリのパッケージです。 現バージョンでは,Webコンテンツから情報を抽出するための基本的なAPIを提供しています。

機能

次の2つのクラスを提供しています:

  • Rinza_IE_Spiderクラス:
    指定URLを起点とした場合に最初に得られる有意なコンテンツの取得を支援します。
    指定URLに対して,次のような場合であっても,それを意識させることなく,意味のある内容を含むWebコンテンツを取得することができます。
    • Webサーバにおいて,別のURLにリダイレクトするようにしている
    • 対応するWebページにおいて,ユーザエージェントの受付言語に応じてURLを切り替えるようにしている
    • 対応するWebページにおいて,自動的に別のWebページに切り替えるようにしている
    • 対応するWebページにおいて,フレームで構成するようにしている
  • Rinza_IE_Scraperクラス:
    指定したコンテンツ文字列の正規化および正規化した文字列からの特定情報の抽出を支援します。
    現在,次のような情報の抽出をサポートしています:
    • 指定された2つの文字列に挟まれる部分の抽出
    • リンク情報の抽出
    • 指定キーワードに関連するリンク情報の抽出
    • HTMLタグ部分を取り除いた文字列の抽出
    • HTMLコメント部分を取り除いた文字列の抽出
    • HTMLコメント部分の抽出
    • 指定HTMLタグ要素の抽出

各APIの詳細は,配布物に含まれている「IE APIs リファレンス」 あるいは こちら を参照ください。