|
|
|
Forum Guru
      
участник
Last Login: 16.05.2007 12:30
Сообщ.: 71,
Visits: 127
|
|
Как сохранить контент страницы сайта?
На пыхе делается просто , функцией file, она сохраняет контент в массив.
Есть ли в VBScript побобная функция, или как тут быть?!?!
|
|
|
|
|
Supreme Being
модератор
Last Login: 04.05.2008 13:32
Сообщ.: 7 240,
Visits: 65 445
|
|
|
|
|
|
Supreme Being
модератор
Last Login: 04.05.2008 13:32
Сообщ.: 7 240,
Visits: 65 445
|
|
| В синтаксисе регулярных выражений есть различия которые и могут приводить к их непереносимости. Ведь даже в ОС *nix есть минимум два синтаксиса. В твоем регулярном выражении мне непонятно назначение символа # в начале и конце. У тебя все ссылки заключены в них? Далее внутри блока [^] у тебя указан символ . без \. По моему это указывает исключить все символы в чем нет смысла с учетом того что там же перечислены другие символы. Видимо ты имел в виду символ точки, а значит забыл добавить символ \. Также надо бы поставить \ перед символами ) и ? внутри того же блока. И неясно зачем указан " - ведь он будет воспринят посимвольно, а не как целое. Так и должно быть или в php это по воспринималось как целое? По-моему данное выражение ошибочно и надо использовать какое-то другое. Например, в MSDN приводится такое выражение для URL: "(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)"
|
|
|
|
|
Forum Guru
      
участник
Last Login: 16.05.2007 12:30
Сообщ.: 71,
Visits: 127
|
|
с помощбю такого (\w+):\/\/([^/:]+)(:\d*)?([^# ]*)
выражения мы выдерним все ссылки и это правильно, я в MSDN не увидел символ отделяющий спец символ для VBScript! Например как отделить " (кавычку) !??? regEx.Pattern = "<a href=\"(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)\">"
\ так бы разделил в пыхе...
|
|
|
|
|
Supreme Being
модератор
Last Login: 04.05.2008 13:32
Сообщ.: 7 240,
Visits: 65 445
|
|
| Чтобы вставить кавычку в строку ее надо удвоить. Слеш перед ней ставить не нужно так это не спец. символ регулярного выражения. regEx.Pattern = "<a href=""(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)"">"
|
|
|
|
|
Forum Guru
      
участник
Last Login: 16.05.2007 12:30
Сообщ.: 71,
Visits: 127
|
|
|
|
|
|
Supreme Being
модератор
Last Login: 04.05.2008 13:32
Сообщ.: 7 240,
Visits: 65 445
|
|
| "Отсюда" это откуда? И код весь покажи.
|
|
|
|
|
Forum Guru
      
участник
Last Login: 16.05.2007 12:30
Сообщ.: 71,
Visits: 127
|
|
regEx.Pattern = "<table(.*)><tbody><tr>(.*)</tr></tbody></table>" regEx.IgnoreCase = TrueregEx.Global = True
сбился с ног!!! блин должно выдернуться все что между <table><tbody><tr> и вот этим </tr></tbody></table> Возвращает ноль ((((
|
|
|
|
|
Supreme Being
модератор
Last Login: 04.05.2008 13:32
Сообщ.: 7 240,
Visits: 65 445
|
|
| Проверил твой пример. На странице http://stores.ebay.com/_W0QQfeZ1QQtZlw все ссылки идут внутри кавычек и там вообще нет html кода с текстом "href=stores.ebay." Я попробовал на локальном файле этот же код, со специально добавленной ссылкой без кавычек и регулярное выражение его пропустило. И ссылок на странице 27, а не 25. В общем, я не смог воспроизвести твою ошибку. В регулярном выражении длдя таблицы попробуй добавить вопросительный знак после звездочки, чтобы оно не пыталось по максимуму текст охватить. regEx.Pattern = "<table(.*?)><tbody><tr>(.*?)</tr></tbody& | | | |