Rinza_IE
[ class tree: Rinza_IE ] [ index: Rinza_IE ] [ all elements ]

Class: Rinza_IE_Spider

Source Location: /Spider.php

Class Overview

HTTP_Request
   |
   --Rinza_IE_Spider

Rinza_IE_Spider Class


Author(s):

  • Y. Kurei

Methods



Class Details

[line 45]
Rinza_IE_Spider Class

指定URLを起点として最初に得られる有意コンテンツを取得する手段を提供します。
指定URLに対して

  • Webサーバにおいて,別のURLにリダイレクトするようにしている
  • 対応するWebページにおいて,ユーザエージェントの受付言語に応じてURLを切り替えるようにしている
  • 対応するWebページにおいて,自動的に別のWebページに切り替えるようにしている
  • 対応するWebページにおいて,フレームで構成するようにしている
のような場合であっても,それを意識させることなく,意味のある内容を含むWebコンテンツを取得することができます。

使用例:

  1.  $s new Rinza_IE_Spider($url);




Tags:

author:  Y. Kurei


[ Top ]


Class Methods


constructor __construct [line 150]

Rinza_IE_Spider __construct( [string $pURL = ''], [array $pArgs = array()], [string $pAlang = 'ja'], [stirng $pUagent = NULL], [boolean $pIgnoreNoScript = FALSE], [boolean $pCacheCtrl = TRUE])

コンストラクタ

オブジェクトの設定




Tags:

access:  public


Parameters:

string   $pURL   コンテンツ取得先URL(既定値は空文字列)
array   $pArgs   HTTP_Request用パラメタ(既定値は空配列・・・HTTP_Requestの既定値に従う)
string   $pAlang   取得希望コンテンツの言語(既定値は'ja')
stirng   $pUagent   コンテンツリクエスト時のユーザエージェント(既定値はNULL・・・HTTP_Requestの既定値に従う)
boolean   $pIgnoreNoScript   <noscript>...</noscript>内リンク情報を無視する(TRUE)か否(FALSE)か(既定値:FALSE)
boolean   $pCacheCtrl   キャッシュ指示子("Pragma: no-cache"と"Cache-Control: no-cache")を追加する(TRUE)か否(FALSE)か(既定値:TRUE)

[ Top ]

method getContentHistories [line 578]

array getContentHistories( )

取得コンテンツ履歴を得る



Tags:

return:  以下のキーをもつ取得コンテンツ履歴配列
  • url - コンテンツ取得先URL
  • response_header - コンテンツ取得時のHTTPレスポンスヘッダ値の配列
  • content - 取得コンテンツ文字列
access:  public


[ Top ]

method getSignificantContent [line 182]

array getSignificantContent( )

現在のコンテンツ取得先URLを起点に有意なコンテンツを取得する

  • Webサーバによるリダイレクト先コンテンツ
  • ユーザエージェント受付言語に則したJavaScriptによる切り替え先コンテンツ
    navigator.language.indexof(取得希望コンテンツの言語)
    location.href
  • 自動的に切り替えられる先のコンテンツ
    <meta http-equiv="refresh">
  • フレームで構成される場合の各フレームソースのすべてのコンテンツ




Tags:

return:  以下のキーをもつ有意コンテンツ情報配列(有意コンテンツを得られなかった場合は空配列を返す)
  • url - 有意コンテンツ取得先URL
  • response_header - 有意コンテンツ取得時のHTTPレスポンスヘッダ値の配列
  • content - 取得した有意コンテンツ文字列
access:  public


[ Top ]

method getTargetURL [line 560]

string getTargetURL( )

最も新しく取得したコンテンツのURLを得る



Tags:

return:  最も新しく取得したコンテンツのURL
access:  public


[ Top ]


Documentation generated on Fri, 09 Nov 2007 14:01:44 +0900 by phpDocumentor 1.4.0