CHANGELOG
--------------------------------------------------------------------------------
Rinza IE APIs 1.1.4 2007.11.09
--------------------------------------------------------------------------------
■Scraper.php
*) getListOfLinks() :
- aタグのhref属性値からのURL取得方法を改善。
-- 値がシングルクォーテーションで囲まれていて,href以外の属性が指定されその
属性値がダブルクォーテーションで囲まれている場合にその値をURLとして取得
していた誤りを修正。
--------------------------------------------------------------------------------
Rinza IE APIs 1.1.3 2006.12.11
--------------------------------------------------------------------------------
■Spider.php
*) getSignificantContent() :
- metaタグ要素のhttp-equiv属性値としてrefreshが指定されている場合に,metaタグ
自体がnoscriptタグ要素に含まれている場合,有意コンテンツ取得先としての切り
替えは行わずに,指定URLのコンテンツ内容を単に追加するように変更。
*) __construct(), getSignificantContent() :
- HTTPリクエストヘッダにcache指示子("Pragma: no-cache"と"Cache-Control:
no-cache"を追加するか否か指定できるように変更。
*) PHP Noticeエラー発生箇所の修正。
■Scraper.php
*) getListOfLinks() :
- aタグのhref属性値からのURL取得方法を改善。
-- 値がクォーテーションで囲まれておらず,値の直後に空白もなくタグが閉じられ
ている場合に対応。
-- 値がクォーテーションで囲まれておらず,href以外の属性が指定されその属性値
がクォーテーションで囲まれている場合にその値をURLとして取得していた誤り
を修正。
- JavaScript addMenuItem()からのURL取得方法を改善(プロプラエタリ関数の追加対
応)。
- aタグにおいてリンク先がonClick属性値の関数の引数として与えられている場合に
対応。
*) __construct() :
- コンテンツ文字列においてhtml開始タグからhtml終了タグの範囲の文字列を処理対
象とするか否かを指定できるように変更。
*) getNormarizedString() :
- コンテンツ文字列においてhtml開始タグからhtml終了タグの範囲の文字列を処理対
象とする場合,その範囲の正規化文字列を返すように変更。
*) PHP Noticeエラー発生箇所の修正。
--------------------------------------------------------------------------------
Rinza IE APIs 1.1.2 2006.10.18
--------------------------------------------------------------------------------
■Spider.php
*) getSignificantContent() :
- noscriptタグ要素内のhrefリンク先URLのコンテンツ追加取得処理において,URLが#
で始まる場合には処理を行わないように変更。
■Scraper.php
*) getListOfLinks() :
- aタグからのリンク情報取得の際に,a終了タグが指定されていない場合の考慮を追
加。
- aタグからのリンク情報詳細取得の際に,href属性で指定されたURLが#で始まる場合
に処理を行わないように変更。
--------------------------------------------------------------------------------
Rinza IE APIs 1.1.1 2006.10.08
--------------------------------------------------------------------------------
■Spider.php
*) getSignificantContent() :
- 有意コンテンツ取得処理において,取得したコンテンツをScraperで正規化した後,
再度文字エンコードの検出を行っていた処理を止めた。これに伴い,移行のマルチ
バイト文字列の処理には,正規化後の文字エンコーディングであるUTF-8で処理を行
うように変更。
■Scraper.php
*) __construct() :
- 文字エンコーディング検出順序を変更
--------------------------------------------------------------------------------
Rinza IE APIs 1.1.0 2006.09.08
--------------------------------------------------------------------------------
■Spider.php
*) __construct() :
- 対象とするURLに対応するコンテンツが既に有意コンテンツであることがわかってい
る場合に,noscriptタグの開始・終了タグ間で指定されているリンク情報に対応す
るコンテンツを取得対象にしないように指示するための引数を追加。
*) getSignificantContent() :
- metaタグのhttp-equiv属性の値がrefreshである場合の遷移先URL取得方法の改善。
- bodyタグのonLoad属性の値がロケーション変更を行う関数であった場合にその変更
先URLを有意コンテンツ取得先にするように対応。
- HTML注釈行に含まれるからコンテンツ取得を行ってしまう不具合を修正。
- HTTP_Request::getResponseBody()で取得したコンテンツに制御文字列が含まれてい
た場合に文字列の位置取得において正しい結果が得られないという不具合を修正。
- HTML注釈行に含まれるタグからリンク情報取得を行ってしまう不具合を修正。
- noscriptタグの開始・終了タグ間で指定されたリンク情報に対応するコンテンツの
取得処理において,取得したコンテンツにすでに処理済のリンク情報がさらに
noscriptタグの開始・終了タグ間で指定されていた場合,これを再度処理対象とし
てしまう不具合を修正。
- HTTPリクエストエラーが発生した場合の返り値の設定が不適切であったため,空配
列を返すように修正。
■Scraper.php
*) getRemoveHTMLComments() :
- HTML注釈開始後に対応するHTML注釈終了が存在しない場合,なんらかのHTMLタグの
開始が現れた時点でHTML注釈は終了するものとして処理するように対応。
- 空白文字のみ,あるいは空白文字をあらわすHTMLの特殊文字のみである場合には,
NULLを返すように変更。
*) getPartialBlock() :
- 処理対象とするコンテンツ文字列の長さが極端に大きい場合,実行環境によっては
実行時間制限内に処理できない場合があるため,文字列の長さに応じて,動的に実
行時間制限を拡大する(5万文字毎に60秒加算)ように対応。
*) getListOfLinks() :
- aタグ内でリンク先をonClick属性値のwindow.open()で指定されている場合もリンク
情報として取得するように対応。
- aタグのhref属性値からのURL取得方法を改善。
- aタグにtitle属性が指定されている場合,aタグ開始・終了間にそのほかにリンク先
を説明するタイトル文字列が存在しないとき,title属性値をタイトルとして取得す
るように対応。
- alt属性値からのタイトル文字列取得処理を改善。
- JavaScript addMenuItem()からのリンクのタイトル名を取得する際に,パラメタ内
にHTMLタグがあった場合,それを除いた部分のみを取得するように修正。
- JavaScript addMenuItem()に類似したプロプラエタリな関数additem()からのリンク
情報取得をaddMenuItem()処理の一部として対応。
*) getRelatedLinks() :
- 検索非対象キーの結果を保持するための変数の誤りを修正。
- 検索対象・非対象キーによる検索を大文字・小文字を区別しないように修正。
■Util.php
*) getAbsoluteURL() :
- 引数として渡されたURLに空白文字が存在する場合,空白文字を%20に変換して返す
ように修正
- 絶対URLへの変換処理を改善
--------------------------------------------------------------------------------
|