Rinza_IE
[ class tree: Rinza_IE ] [ index: Rinza_IE ] [ all elements ]

Class: Rinza_IE_Scraper

Source Location: /Scraper.php

Class Overview


Rinza_IE_Scraper Class


Author(s):

  • Y. Kurei

Methods



Class Details

[line 68]
Rinza_IE_Scraper Class

指定したコンテンツ文字列の正規化および正規化した文字列から特定の情報を抽出する 手段を提供します。

  • 指定された2つの文字列に挟まれる部分の抽出
  • リンク情報の抽出
  • 指定キーワードに関連するリンク情報の抽出
  • HTMLタグ部分を取り除いた文字列の抽出
  • HTMLコメント部分を取り除いた文字列の抽出
  • HTMLコメント部分の抽出
  • 指定HTMLタグ要素の抽出
等をサポートしています。

使用例:

  1.  $s new Rinza_IE_Scraper($web_content_string);




Tags:

author:  Y. Kurei


[ Top ]


Class Methods


constructor __construct [line 124]

Rinza_IE_Scraper __construct( [string $pString = NULL], [string $pEncoding = 'UTF-8'], [ $pHtmlRange = TRUE])

コンストラクタ

オブジェクトの設定




Tags:

access:  public


Parameters:

string   $pString   コンテンツ文字列(既定値:NULL)
string   $pEncoding   文字列処理時の文字エンコーディング(既定値:UTF-8)
   $pHtmlRange  

[ Top ]

method getHTMLComments [line 1004]

string getHTMLComments( )

コンテンツ文字列からのHTMLのコメント部分のみの文字列の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う




Tags:

return:  HTMLコメント部分文字列(空文字列の場合はNULLを返す)
access:  public


[ Top ]

method getListOfLinks [line 334]

array getListOfLinks( [string $pURL = NULL], [integer $pOpt = RINZA_IE_SCRAPER_LINK_INFO_A])

コンテンツ文字列からのすべてのリンク情報の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う




Tags:

return:  対象リンク情報のすべてを格納した以下のキーをもつ配列
  • info -
    • RINZA_IE_SCRAPER_LINK_INFO_Aの場合 : "<a "から"</a>"の間の文字列
    • RINZA_IE_SCRAPER_LINK_INFO_AREAの場合 : "<area "から">"の間の文字列
    • RINZA_IE_SCRAPER_LINK_INFO_MENUの場合 : "addMenuItem("から")"の間の文字列
    • RINZA_IE_SCRAPER_LINK_INFO_ZALLの場合 : 上記すべて
  • url -
    • RINZA_IE_SCRAPER_LINK_INFO_Aの場合 : hrefあるいはwindow.open()に指定されているURL
    • RINZA_IE_SCRAPER_LINK_INFO_AREAの場合 : hrefに指定されているURL
    • RINZA_IE_SCRAPER_LINK_INFO_MENUの場合 : locationに指定されているURL
    • RINZA_IE_SCRAPER_LINK_INFO_ZALLの場合 : 上記すべて
  • absurl -
    • RINZA_IE_SCRAPER_LINK_INFO_Aの場合 : hrefあるいはwindow.open()に指定されているURLを絶対URLに変換したもの
    • RINZA_IE_SCRAPER_LINK_INFO_AREAの場合 : hrefに指定されているURLを絶対URLに変換したもの
    • RINZA_IE_SCRAPER_LINK_INFO_MENUの場合 : locationに指定されているURLを絶対URLに変換したもの
    • RINZA_IE_SCRAPER_LINK_INFO_ZALLの場合 : 上記すべて
  • title - リンクを説明する文字列
access:  public


Parameters:

string   $pURL   コンテンツ文字列を取得したURL(既定値:NULL)
integer   $pOpt   対象とするリンク情報
  • RINZA_IE_SCRAPER_LINK_INFO_A - "<a>タグ"を対象(既定値)
  • RINZA_IE_SCRAPER_LINK_INFO_AREA - "<area>タグ"を対象
  • RINZA_IE_SCRAPER_LINK_INFO_MENU - "JavaScript addMenuItem()"を対象
  • RINZA_IE_SCRAPER_LINK_INFO_ZALL - 上記すべてを対象

[ Top ]

method getListOfScriptSrc [line 820]

array getListOfScriptSrc( [string $pURL = NULL])

コンテンツ文字列からの外部スクリプトファイルのリンク情報を取得

コンテンツ文字列が正規化されていない場合には,正規化を行う




Tags:

return:  以下のキーをもつ関連リンク情報の配列
  • info - "<scrtipt "から"</script>"の間の文字列
  • url - hrefに指定されているURL
  • absurl - hrefに指定されているURLを絶対URLに変換したもの
access:  public


Parameters:

string   $pURL   コンテンツ文字列を取得したURL

[ Top ]

method getNormarizedString [line 193]

string getNormarizedString( )

Scraperに渡されているコンテンツ文字列の正規化文字列の取得

正規化:コンテンツ文字列に含まれる次のコードを空白1文字に変換

  • HT(09)
  • LF(10)
  • CR(13)
  • 連続する半角空白




Tags:

return:  正規化されたコンテンツ文字列
access:  public


[ Top ]

method getPartialBlock [line 244]

array getPartialBlock( string $pStart, string $pEnd, integer $pOffset)

コンテンツ文字列から2つの指定文字列で挟まれる部分を抽出した文字列および抽出終了位置の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う
指定文字列に対する抽出において,大文字・小文字の区別はしない




Tags:

return:  次をキーをもつ配列:
  • 0 - 抽出された文字列(該当する抽出箇所がない,あるいは空白文字のみの場合 : NULL)
  • 1 - 抽出元文字列における抽出終了位置
access:  public


Parameters:

string   $pStart   抽出開始部分を決めるための文字列(NULLの場合は,抽出元文字列の1文字目から抽出対象となる)
string   $pEnd   抽出終了部分を決めるための文字列(NULLの場合は,抽出元文字列の最終文字までが抽出対象となる)
integer   $pOffset   抽出元文字列のうち抽出開始対象とする位置を指定する(0オリジン)

[ Top ]

method getRelatedLinks [line 666]

array getRelatedLinks( array $pLinks, array $pTargetKey, array $pExceptKey)

getListOfLinks()で得られたリンク情報のうち,指定キーワードに関わるリンク情報の取得

指定キーワードに対する検索において,大文字・小文字の区別はしない




Tags:

return:  以下のキーをもつ関連リンク情報の配列
  • absurl - 絶対URL
  • title - リンクを説明する文字列
access:  public


Parameters:

array   $pLinks   getListOfLinks()の返り値配列
array   $pTargetKey   対象キーワードの配列
array   $pExceptKey   除外キーワードの配列

[ Top ]

method getRemoveHTMLComments [line 956]

string getRemoveHTMLComments( )

コンテンツ文字列からのHTMLのコメント部分をすべて除いた文字列の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う




Tags:

return:  HTMLコメント部分が除かれた文字列(空文字列の場合はNULLを返す)
access:  public


[ Top ]

method getRemoveTags [line 883]

string getRemoveTags( [boolean $pInTag = FALSE])

コンテンツ文字列からのタグ部分("<"と">"で挟まれる部分)をすべて除いた文字列の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う




Tags:

return:  タグ部分が除かれた文字列(空文字列の場合はNULLを返す)
access:  public


Parameters:

boolean   $pInTag  
  • 処理対象コンテンツ文字列が元々タグ内のある文字から開始されたものである場合 : TRUE
  • 上記以外 : FALSE

[ Top ]

method getString [line 172]

string getString( )

Scraperが現在処理対象としているコンテンツ文字列の取得



Tags:

return:  Scraperが現在処理対象としているコンテンツ文字列
access:  public


[ Top ]

method getTagElement [line 1030]

string getTagElement( [string $pTag = NULL])

コンテンツ文字列からの指定タグ要素("<tag_name"と"</tag_name>"で挟まれる部分)文字列の取得

コンテンツ文字列が正規化されていない場合には,正規化を行う
tag_nameの大文字・小文字の区別はしない




Tags:

return:  指定タグの要素である文字列(指定タグ見つからない場合はNULL)
access:  public


Parameters:

string   $pTag   タグ名文字列

[ Top ]

method setString [line 159]

void setString( [string $pString = NULL])

Scraperが処理するコンテンツ文字列の(変更)設定



Tags:

access:  public


Parameters:

string   $pString   コンテンツ文字列(既定値:NULL)

[ Top ]


Documentation generated on Fri, 09 Nov 2007 14:01:38 +0900 by phpDocumentor 1.4.0