README
********************************************************************************
本プログラムは、「Rinza公衆使用許諾契約書 第1.0版」に基づいて提供されています。
「Rinza公衆許諾契約書 第1.0版」は、パッケージ内の"LICENSE"ファイル、および次に
示すURLにおいて参照することができます:
http://www.tyzoh.jp/rinza/licenses/LICENSE-1.0.txt
本プログラムにおけるオリジナル・プログラムの初期開発者は、日本ユニシス株式会社で
あり、その著作権は日本ユニシス株式会社が所有しています(The Original Program is
copyrighted (C) 2005-2007 by Nihon Unisys, Ltd. with all rights reserved.)。
本プログラムは現状有姿にて提供されるものとし、明示・黙示を問わず、プログラムの
瑕疵の不存在、商業的な使用可能性、使用目的に対する適合性を含め、いかなる保証も
なしに提供されるものです。
また、日本ユニシス株式会社をはじめとするRinzaソフトウェアの開発に携わっている
団体および個人は、本プログラムの使用によって発生するいかなる損害に対しても一切の
責任を負わないものとします。
なお,上記の”本プログラム”および”オリジナル・プログラム”の定義については、
「Rinza公衆使用許諾契約書 第1.0版」を参照ください。
********************************************************************************
Rinza IE APIs
=============
■ Rinza IE APIs について
Rinza IE APIs は,電子文書から特定の情報を抽出することを支援するためのAPI(アプリ
ケーション・プログラム・インタフェース)を提供するPHP用のパッケージ(Rinza_IEパッケ
ージ)です。
現バージョンでは,Webコンテンツから情報を抽出するための基本的なAPIを提供していま
す。
■ 機能
次の2つのクラスを提供しています:
・Rinza_IE_Spiderクラス:
指定URLを起点とした場合に最初に得られる有意なコンテンツの取得を支援します。
指定URLに対して
- Webサーバにおいて,別のURLにリダイレクトするようにしている
- 対応するWebページにおいて,ユーザエージェントの受付言語に応じてURLを切り
替えるようにしている
- 対応するWebページにおいて,自動的に別のWebページに切り替えるようにしている
- 対応するWebページにおいて,フレームで構成するようにしている
のような場合であっても,それを意識させることなく,意味のある内容を含むWebコン
テンツを取得することができます。
・Rinza_IE_Scraperクラス:
指定したコンテンツ文字列の正規化および正規化した文字列からの特定情報の抽出を支
援します。
現在,次のような情報の抽出をサポートしています:
- 指定された2つの文字列に挟まれる部分の抽出
- リンク情報の抽出
- 指定キーワードに関連するリンク情報の抽出
- HTMLタグ部分を取り除いた文字列の抽出
- HTMLコメント部分を取り除いた文字列の抽出
- HTMLコメント部分の抽出
- 指定HTMLタグ要素の抽出
各APIの詳細は,配布物に含まれている「Rinza IE APIs Reference」を参照ください。
■ リリースバージョン/リリース年月日/変更情報
1.1.4/2007年11月09日/CHANGELOGファイルを参照ください
1.1.3/2006年12月11日/CHANGELOGファイルを参照ください
1.1.2/2006年10月18日/CHANGELOGファイルを参照ください
1.1.1/2006年10月12日/CHANGELOGファイルを参照ください
1.1.0/2006年 9月 8日/CHANGELOGファイルを参照ください
1.0.0/2006年 7月31日/-
■ 配布物一覧
ダウンロードした配布パッケージを任意のディレクトリに展開します。展開先のディレク
トリには Rinza_IE-1.1.4 ディレクトリが作成され,その配下に配布ファイルが配置され
ます。
Rinza_IE-1.1.4 --+-- README (本ファイル)
+-- CHANGELOG (変更履歴)
+-- LICENSE (Rinza公衆使用許諾契約書)
+-- COPYRIGHT (適用ライセンス・初期開発者の著作権表示)
+-- Spider.php (Rinza_IE_Spiderクラス)
+-- Scraper.php (Rinza_IE_Scraperクラス)
+-- Util.php (Rinza_IE_Utilクラス)
+-- docs (Rinza IE APIs Reference : index.html)
+-- examples (サンプルプログラム)
■ 必要環境
Rinza_IEパッケージを使用するには,次のPEAR関連パッケージがインストールされたPHP5
の環境が必要です:
・HTTP_Request
・Net_Socket
・Net_URL
・PEAR
なお,Rinza_IEパッケージは,PHP 5.0.4/5.1.6 で動作確認済みです。
■ 導入および環境設定
既にPHP5が導入されていることを前提に記述します。
1. PEAR関連パッケージの導入
上記の「必要環境」に記載してあるPEAR関連パッケージが未導入の場合には,PEARマニュ
アルの「第2章 インストール」(http://pear.php.net/manual/ja/installation.php)にし
たがって,必要パッケージを導入してください。
2. Rinza_IEパッケージの導入
ご使用のphp.iniファイルの"include_path="で指定されているディレクトリ配下に
Rinza
という名前のディレクトリを作成します。さらにRinzaディレクトリの下に
IE
という名前のディレクトリを作成します。このIEディレクトリに配布物内の次の3ファイル
・Spider.php
・Scraper.php
・Util.php
をコピーすれば導入完了です。
■ APIの使用例
APIの使用例として配布物のexamplesディレクトリに次のサンプルプログラムがあります
ので参照してください:
・sample.php
このサンプルプログラムは,Tyzohサイト(http://www.tyzoh.jp/)のトップページから
リンク情報を抽出して出力するものです。
[実行方法]
1. sample.phpの15行目と16行目のプロキシ設定をご使用の環境に応じた値に変更
2. sample.phpの実行
php sample.php > sample.txt
3. sample.txtをテキストエディタで開き,Tyzopサイトのトップページに含まれている
リンク情報が出力されていることを確認(文字コード:UTF-8)
以上
|