Автоматизация смотрелок.

понедельник, 25 мая 2015

14:12

Hikedaya

We rise up for the things we believe in over and over again

Смотрелка - Браузер, если по-нашему, по айтишному.
А началось все... с Initial.D: читать дальше

Что-то вспомнился мне этот диалог, решил, что надо бы эту задачу расколоть.
Исследуем выдачу от Mail.ru. Все ссылки не прямые, а ведущие на отдельные страницы, уже с которых можно вытащить ссылку на сами файлы. Следовательно, вариант, который я использовал в прошлый раз, отпадает. Придется как-то ходить по ссылкам из выдачи поисковика.
Ключевой момент - как можно в Powershell пойти куда-то в вебе в режиме смотрелки? Правильно, "оседлать" смотрелку!

$ie = new-object -com internetexplorer.application
$source = "http://go.mail.ru/search_site?q=eye%20of%20the%20tiger&p=1&aux=PLA099"
$ie.Navigate($source)

Вот вокруг этого скрипт и будет крутиться. Погнали!

$source = "http://go.mail.ru/search_site?q=eye%20of%20the%20tiger&p=1&aux=PLA099"
$destination = "D:\temp\"
$ie = new-object -com internetexplorer.application
$wget = New-object System.Net.WebClient

$ie.visible=$true
$ie.Navigate($source)
while($ie.busy) {sleep 1}
$elements = @([System.__ComObject].InvokeMember(“getElementsByTagName”,[System.Reflection.BindingFlags]::InvokeMethod, $null, $ie.document, 'A')) | 
    where {$_.href -match "https:\/\/myzuka\.org\/Song\/[0-9]*\/[a-zA-Z0-9 -]*-Eye-Of-The-Tiger"} | 
    select @{n="Link"; e={$_.href}} -Unique

foreach ($element in $elements) {
    $ie.navigate($element.link)
    while($ie.busy) {sleep 1}
    $link = @([System.__ComObject].InvokeMember(“getElementsByTagName”,[System.Reflection.BindingFlags]::InvokeMethod, $null, $ie.document, 'A')) | 
        where {$_.title -match "Скачать [a-zA-Z0-9\ \-\(\)]* Eye Of The Tiger[a-zA-Z0-9\ \-\(\)]*"} | select -first 1
    $filename = $destination+$link.title+".mp3"
    $wget.DownloadFile($link.href,$filename)
}

А теперь по складам.
Первый блок ничем не примечателен, обычное объявление объектов да одной переменной. Во втором уже любопытнее, происходит, собственно "автоматизация смотрелки". Мы скармливаем подопытному браузеру исходную ссылку, заставляем его перейти по ней, вытаскиваем из исходного кода этой страницы все элементы типа "якорь", а затем при помощи ~~хитрой магии~~ регулярного выражения из всех этих якорей получаем ссылки, ведущие на страницы загрузки нужных файлов. Эти ссылки в виде хэш-таблицы передаются в переменную $elements.
Дальнейшее уже является повторением ранее изученного. В цикле та же автоматизация смотрелок плюс "хитрая магия" плюс загрузка файла при помощи wget.

Отдельно стоит сказать по зубодробительной конструкции
@([System.__ComObject].InvokeMember(“getElementsByTagName”,[System.Reflection.BindingFlags]::InvokeMethod, $null, $ie.document, 'A'))
которая все якоря из исходника и выбирает. Вообще есть более изящное $ie.document.GetElementsByTagName('A'), но, как выяснилось, у нее есть большие проблемы с разными версиями IE. В актуальных для Windows 7, это не работает, потому пришлось идти через запасной ход.
C хэш-таблицей тоже все весело. Изначально я вообще не планировал ее использовать, ибо зачем плодить сущности. Хотелось в переменную $elements загнать непосредственно то, что будет отдано парсером GetElementsByTagName. Не тут-то было. Парсер эти данные отдал, но как только дело доходило до третьего блока, который уже загружал отдельные страницы, переменная $elements теряла все значения. Не коллекцию элементов, а именно значения. И, естественно, третий блок валился с ошибкой и многими строками красного текста, ненавистного большинству повершелльщиков. Пришлось отделить мух от котлет, после этого все заработало.

А засада этого скрипта в том, что на его отладку было потрачено больше времени, чем на ручное скачивание всех этих 40+ файлов. Ну и ладно, зато плюс одна любопытная задачка в активе

P.S> Но насколько же неторопливо идет парсинг кода при помощи GetElementsByTagName...

UPD. В топку internetexplorer.application, Invoke-WebRequest же!

$source = "http://go.mail.ru/search_site?q=eye%20of%20the%20tiger&p=1&aux=PLA099"
$destination = "D:\temp\"
$wget = New-object System.Net.WebClient

$elements = (Invoke-WebRequest $source).links | 
    where {$_.href -match "https:\/\/myzuka\.org\/Song\/[0-9]*\/[a-zA-Z0-9 -]*-Eye-Of-The-Tiger"}|
    select @{n="URL"; e={$_.href}} -Unique

$elements | %{
    $filelink = (Invoke-WebRequest $_.URL -UseBasicParsing).links | 
        where {$_.title -match "Скачать [a-zA-Z0-9\ \-\(\)]* Eye Of The Tiger[a-zA-Z0-9\ \-\(\)]*"} | 
        select -first 1
    if ($filelink) {
        $filesource=[string]$filelink.href -replace "&_amp;", "&"
        $wget.DownloadFile("https://myzuka.org$($filesource)","$destination$($filelink.title).mp3")
    }
    else { write-host "No File to download" }
}

Важно! - из &_amp нужно убрать символ подчеркивания, парсер - нехороший человек.

@музыка: The Offspring - Secrets from the Underground

@темы: PowerShell, Scripting

URL

Да, забыл сказать... http://aerostat.kuban.info/ Вот она! Пройдена! Наверное, мне стоило почувствовать себя еще хуже... С это...

Я совсем недвно узнала об этом дневнике.... порой кажетьс... Был тихий осений вечер. По крыше тихо барабанил дождь. Он... В тихом подвале ведьма жила Никто не знал откуда она ...

Комментарии

25.05.2015 в 15:59

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

P.S> Но насколько же неторопливо идет парсинг кода при помощи GetElementsByTagName...

Я обычно делаю поиск по тексту регулярками.

URL

25.05.2015 в 16:04

Hikedaya

We rise up for the things we believe in over and over again

Можно и так. И возможно, так оно будет и быстрее. Но это усложнит регулярку, которая и без того общепризнана хитрым колдунством

Ну и опять же - как было написано, практической пользы в этом скрипте - вовсе не результат в виде 40+ мр3 файлов. Польза в другом

URL

26.05.2015 в 07:34

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Начнём с того, что когда ты пихаешь страницу (или ссылку) в COM объект IE, то он грузит всё, что там есть, выполняет скрипты и всё такое прочее. Оттуда и тормоза. Плюс нехилый риск для безопасности. Так что, лучше написать регулярное выражение.

URL

26.05.2015 в 08:57

Hikedaya

We rise up for the things we believe in over and over again

Ну так понятное дело, что грузится все. Ты же фактически открываешь браузер, и рулишь им при помощи PSH. Визуально такая работа ничем не отличается от ручного управления смотрелкой.

лучше написать регулярное выражение
Ок, но регурярку нужно писать на основании уже загруженного исходника страницы. Поделись, как ты его получишь?

URL

26.05.2015 в 10:19

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Сейчас гляну...

Кстати, рекомендую мою RegExp Playground ^_^

URL

26.05.2015 в 10:33

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Например:

<h3 class="result__title">[\S\s]*?href="(https?://myzuka\.org/Song/.*?)"[\S\s]*?</h3>

URL

26.05.2015 в 10:36

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

А, поняла ^^

Берёшь wget, берёшь параметр -O и качаешь туда. Смотришь код завершения и читаешь указанный файл.

wget "http://go.mail.ru/search_site?q=eye%20of%20the%20tiger&p=1&aux=PLA099" -O "C:\Windows\Temp\Byaka.HTM"

Путь и имя файла можно генерировать динамически. Например, через GetTempPath(), создание GUID и проверку существования файла.

URL

26.05.2015 в 10:37

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Если тебя не возбуждает wget, то можешь юзать WinHTTPServeices. Сейчас придумаю пример.

URL

26.05.2015 в 10:40

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Самый каркас на VBS. Должно быть что-то подобное в PoSH.

Option Explicit

Const HTTPREQUEST_PROXYSETTING_DEFAULT = 0
Const HTTPREQUEST_PROXYSETTING_PRECONFIG = 0
Const HTTPREQUEST_PROXYSETTING_DIRECT = 1
Const HTTPREQUEST_PROXYSETTING_PROXY = 2

Dim WHT
Dim TXT

On Error Resume Next

Set WHT = CreateObject("WinHttp.WinHttpRequest.5.1")

If Err.Number <> 0 Then ...

' ResolveTimeout As Long, ConnectTimeout As Long, 
' SendTimeout As Long, ReceiveTimeout As Long
WHT.SetTimeouts 300 * 1000, 300 * 1000, 300 * 1000, 300 * 1000

' Устанавливаем системный прокси для соединения. Прокси 
' настраивается через Proxycfg.exe, а не через настойки Инета.
' Иначе будет напрямик...
WHT.SetProxy HTTPREQUEST_PROXYSETTING_PRECONFIG, "", ""

WHT.Open "GET", URL
WHT.SetRequestHeader "User-Agent", UserAgent
WHT.Send

If Err.Number <> 0 Then ...

If WHT.Status <> 200 Then ...

TXT = WHT.ResponseText
If TXT = "" Then ...

URL

26.05.2015 в 10:49

Hikedaya

We rise up for the things we believe in over and over again

рекомендую мою RegExp Playground
Да мне regex101.com/ нравится

wget
Во! Вот про wget я и забыл. Будет свободное время - попробую переработать скрипт

URL

26.05.2015 в 10:56

Hikedaya

We rise up for the things we believe in over and over again

Нафиг wget!
Invoke-webrequest же!

PS C:\Users\Hikedaya> invoke-webrequest "http://ya.ru"


StatusCode        : 200
StatusDescription : Ok
Content           : <!DOCTYPE html><html class="i-ua_js_no i-ua_css_standart i-ua_browser_unknown" lang="ru"><head xmln
                    s:og="http://ogp.me/ns#"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>Яндекс</title>
                    <m...
RawContent        : HTTP/1.1 200 Ok
                    Connection: close
                    X-Frame-Options: DENY
                    X-XRDS-Location: http://openid.yandex.ru/server_xrds/
                    Content-Length: 9787
                    Cache-Control: no-cache,no-store,max-age=0,must-revalidate
                    Cont...
Forms             : {}
Headers           : {[Connection, close], [X-Frame-Options, DENY], [X-XRDS-Location, http://openid.yandex.ru/server_xrd
                    s/], [Content-Length, 9787]...}
Images            : {@{innerHTML=; innerText=; outerHTML=<img class="metric" alt="" src="//mc.yandex.ru/watch/723233">;
                     outerText=; tagName=IMG; class=metric; alt=; src=//mc.yandex.ru/watch/723233}}
InputFields       : {@{innerHTML=; innerText=; outerHTML=<input name="lr" type="hidden" value="2">; outerText=; tagName
                    =INPUT; name=lr; type=hidden; value=2}, @{innerHTML=; innerText=; outerHTML=<input name="text" tabi
                    ndex="2" class="input__control" id="text" aria-label="Запрос">; outerText=; tagName=INPUT; name=tex
                    t; tabindex=2; class=input__control; id=text; aria-label=Запрос}}
Links             : {@{innerHTML=Сделать стартовой; innerText=Сделать стартовой; outerHTML=<a title="Сделать стартовой"
                     class="link b-sethome b-sethome__link" href="http://home.yandex.ru/?from=prov_yaru">Сделать старто
                    вой</a>; outerText=Сделать стартовой; tagName=A; title=Сделать стартовой; class=link b-sethome b-se
                    thome__link; href=http://home.yandex.ru/?from=prov_yaru}, @{innerHTML=<div class="b-inline">Войти&n
                    bsp;в почту</div>; innerText=Войти в почту; outerHTML=<a tabindex="3" class="link_black_novisi
                    t link b-inline link_logout" href="https://mail.yandex.ru"><div class="b-inline">Войти в 
                    почту</div></a>; outerText=Войти в почту; tagName=A; tabindex=3; class=link_black_novisit link b-in
                    line link_logout; href=https://mail.yandex.ru}, @{innerHTML=; innerText=; outerHTML=<a title="Яндек
                    с" class="link layout__footer-logo" href="//www.yandex.ru" 12='"' 11="6" 10='"' 9="=" 8="x" 7="e" 6
                    ="d" 5="n" 4="i" 3="b" 2="a" 1="t" 0=" "></a>; outerText=; tagName=A; title=Яндекс; class=link layo
                    ut__footer-logo; href=//www.yandex.ru; 12="; 11=6; 10="; 9==; 8=x; 7=e; 6=d; 5=n; 4=i; 3=b; 2=a; 1=
                    t; 0= }}
ParsedHtml        : System.__ComObject
RawContentLength  : 9787

URL

26.05.2015 в 12:30

Линда Кайе

Тотальная неудачница и убийца жёстких дисков.

Да мне regex101.com/ нравится

А потом интернет вырубают за неуплату...
Плюс мой вариант совместим с тем, что используется у Microsoft.

^^'

URL


Запомнить

Автоматизация смотрелок.

Записная книжка