Собственно кто как сохраняет вэбстранички и где их хранит?
Ctr+s тоже не совсем подходит так как создается хтмл файл+папка с кучей фалов что не есть гигиенично.
Слышал о PHP скрипте который автоматом делает один zipфайл из хтмл файл+папка, но как это реализовать не знаю
зы задался этим вопросом так как Scrapbook и Maff мы кажется уже не увидим из-за e10s и webextentions. А для меня это были два главных дополнения.
ззы ZOTERO не предлагать он платный и дорогой
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Слышал о PHP скрипте который автоматом делает один zipфайл из хтмл файл+папка, но как это реализовать не знаю
У меня есть скрипт, который из .html+папка делает просто один html. Однако он хоть и не на php, но всё же на скриптовом языке, причём таком, с которым в мире Windows очень мало кто знаком, так что прочим страждущим от его существования не легче.
Впрочем, у любого скрипта просто по определению "исходники доступны", так что любой желающий может переписать их на что-то компилируемое.
Добавлено 22-05-2017 00:25:02
Вспомнил про один подвох: как показало практика, некоторые компоненты страницы по Ctrl-S на диск не сохраняются.
Отредактировано yup (22-05-2017 00:25:02)
Отсутствует
Лучше спросить у знающих - чем лезть не зная.
Отсутствует
У меня есть скрипт, который из .html+папка делает просто один html. Однако он хоть и не на php, но всё же на скриптовом языке, причём таком, с которым в мире Windows очень мало кто знаком, так что прочим страждущим от его существования не легче.
Впрочем, у любого скрипта просто по определению "исходники доступны", так что любой желающий может переписать их на что-то компилируемое.
А что за скрипт? Можно подробнее?
Я вот что надыбал. Долго мучился но получилось. Хотелось бы попроще.
http://forum.wincmd.ru/viewtopic.php?p=109336#109336
Добавлено 22-05-2017 00:25:02
Вспомнил про один подвох: как показало практика, некоторые компоненты страницы по Ctrl-S на диск не сохраняются.
Ага) Уже столкнулся с этим.
Добавлено 22-05-2017 02:50:24
Интересно спасибо! Заработало только через это
http://custombuttons.sourceforge.net/fo … 778#p53780
Жаль что не совместимо с e10s
Сохраняет идеально! А что это за формат такой? Вроде только хтмл, а все внутри?
Отредактировано 12 (22-05-2017 02:50:24)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
А что за скрипт?
UniPage.cmd
Но толку-то с этого? Он на REXX написан, и для его запуска интерпретатор нужен. Но ObjectREXX сейчас хрен найдёшь. Остаётся только Regina с её причудами. К тому же Regina кроссплатформенная и писалась с прицелом на нормальные операционки. А тут Windows, где у любого интерпретатора большие проблемы с передачей русских имен файлов через командную строку. Я одному своему клиенту регулярно напоминать вынужден: "Не сохраняй с русским именем, не сохраняй!"
А что это за формат такой? Вроде только хтмл, а все внутри?
Ну да. А что у нас снаружи сохраняется? Скрипты, стили и картинки. Скрипты и стили уезжают внутрь HTML самым естественным образом. А картинки с некоторых (и уже довольно давних) пор тоже стало можно засовывать внутрь HTML в Base64-представлении.
Отредактировано yup (22-05-2017 13:47:50)
Отсутствует
UniPage.cmd
Но толку-то с этого? Он на REXX написан, и для его запуска интерпретатор нужен. Но ObjectREXX сейчас хрен найдёшь. Остаётся только Regina с её причудами. К тому же Regina кроссплатформенная и писалась с прицелом на нормальные операционки. А тут Windows, где у любого интерпретатора большие проблемы с передачей русских имен файлов через командную строку. Я одному своему клиенту регулярно напоминать вынужден: "Не сохраняй с русским именем, не сохраняй!"
То есть под Вынь даже Regina не будет нормально работать? И такой скрипт как UniPage вообще не будет работать или будет но плохо? И альтернатив нет совсем? Даже если захотеть самому написать такой скрипт то наткнешься на кучу проблем(те же кириллические имена под вынь как вы говорите)?
Ну да. А что у нас снаружи сохраняется? Скрипты, стили и картинки. Скрипты и стили уезжают внутрь HTML самым естественным образом. А картинки с некоторых (и уже довольно давних) пор тоже стало можно засовывать внутрь HTML в Base64-представлении.
Ух-ты! Не знал, спасибо! А открыться такой хтмл будет везде? И почему по умолчанию в нельзя сделать сохранение в такой хтмл?
А эта кнопка для сохранения что выше, написана на яваскрипт и зависит от расширения кастом баттонс, которое в свою очередь зависит от XUL, и от которого уже почти отказались?
Добавлено 22-05-2017 17:08:12
*****
Вот нашел в вики, почему завел эту тему
https://en.wikipedia.org/wiki/MHTML
Firefox
Mozilla Firefox requires an extension to be installed to read and write MHT files. Two extensions are freely available, Mozilla Archive Format and UnMHT, but both will be discontinued in the future. UnMHT's author has no plans to support Electrolysis. MAF does not yet support Electrolysis.
Although Firefox does not currently (as of version 40.0.3) include support for MHTML without the use of add-ons, there is source code available for viewing MHTML files within the related Thunderbird project, indicating that future support in Mozilla software such as Firefox may become available without such add-ons.
*****
В общем и кастом баттнос не катят(отвалятся после FF56)
Custom Buttons WebExtensions after FF 56
http://custombuttons.sourceforge.net/fo … =2&t=12989
Вопрос темы открыт - как и во что сохранять?
Отредактировано 12 (22-05-2017 17:15:56)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Я пользуюсь Scrapbook с дальнейшим конвертом в CHM. Или скриншотю всю страницу в PNG.
Это если что-то важное.
А так - тоже кнопкой от Lex1.
Формат mht капризный и при сохранении, и при открытии в другом браузере.
Сохранять страницу как 1.htm + 1_files не люблю еще со времен пользования IE5.
Добавлено 22-05-2017 19:52:23
В PDF иногда сохраняю.
Отредактировано thrower (22-05-2017 19:52:23)
Отсутствует
То есть под Вынь даже Regina не будет нормально работать?
У Windows есть чрезвычайно идиотская особенность: на диске имя каждого файла хранится сразу в двух кодировках - UCS-2 (Unicode) и какая-то из семейства ANSI. А в командной строке используется третья кодировка - парная к ANSI, но из семейства OEM. Поэтому все имена файлов, получаемые из командной строки, нужно перекодировать. А средств для этого у Регины нет. Плюс не работает ещё что-то, что должно работать в стандартном REXX (не помню уже точно, что - пять лет назад с ней бодался).
И такой скрипт как UniPage вообще не будет работать или будет но плохо?
UniPage допилить до совместимости с Региной можно, но всё равно придётся имена файлов сохранять исключительно латиницей.
Я же просто скрипт запускаю не под Windows (и не под Региной).
И альтернатив нет совсем?
Изначально UniPage - это была программа под Windows. Но когда я скрипт нашёл, она уже мёртвая была. Зато было несколько других программ и скриптов под тем же названием и того же назначения. Но сейчас из них только этот один и доступен. Зато он из всех был самый правильный.
Даже если захотеть самому написать такой скрипт то наткнешься на кучу проблем(те же кириллические имена под вынь как вы говорите)?
Проблема 3 кодировок затрагивает все Windows-программы. Но мы же её, как правило, не замечаем - потому что авторы программ о ней знают и имена перекодируют.
Даже в Регине, если под себя делать, перекодировать можно - просто это будет забитая намертво перекодировка между двумя конкретными кодовыми страницами, а не универсальная, зависящая от языковых настроек Windows.
А вообще переписать можно на чём угодно, благо логика работы очень простая.
А открыться такой хтмл будет везде?
Штатный Internet Explorer под Windows XP такие картинки не понимает. Все более новые браузеры - вполне.
И почему по умолчанию в нельзя сделать сохранение в такой хтмл?
Может быть, потому, что это уже трансформация страничек. А браузер сохраняет файлы именно в таком виде, как он их получил с сервера (разве что пути меняет на *_files).
А эта кнопка для сохранения что выше, написана на яваскрипт и зависит от расширения кастом баттонс, которое в свою очередь зависит от XUL, и от которого уже почти отказались?
Да. Поэтому я её упоминать не стал, как не вписывающуюся в условия поставленной задачи.
Отредактировано yup (22-05-2017 21:52:34)
Отсутствует
yup А где єтот UniPage можно скачать под вынь?
Тут нашел что то похожее на фтп требуют пароль
http://www.ecsoft2.org/unipage
Bingo! Нужно тупо на нажать скачать по єтой ссылке
ftp://hobbes.nmsu.edu/pub/os2/util/convert/unipage.zip
блин, при запуске пишет
"/*" не является внутренней или внешней командой, исполняемой программой или пакетным файлом. Ошибка в синтаксисе команды.
єто питон? установил, прописал переменные - не пашет(
Отредактировано 12 (23-05-2017 17:29:40)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
єто питон?
Нет, это REXX.
Текущая версия Регины здесь: https://sourceforge.net/projects/regina … exx/3.9.1/
Судя по тому, что внутри UniPage.cmd есть упоминания о Windows, велики шансы, что заработает сразу, без доработки.
Отсутствует
поставил прописал пути
Непредвиденное появление: then. E:\!!!SASHA\_download\unipage>if RxFuncQuery('SysLoadFuncs') then do
Отредактировано 12 (23-05-2017 21:27:45)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Специально сейчас выкачал Регину. Запускаю:
- получаю нормальный вывод скрипта с правилами его использования, никакой ругани.
Отсутствует
regina unipage.cmd
Так запускается, спасибо.
Пришлось поставить wget под вынь (с путями) + кинуть куда нужно библиотеки(зависимости)
http://gnuwin32.sourceforge.net/packages/wget.htm
Все работает. Только нужно после загрузки присвоить собраному файлу расширение html так как он без него, и удалить все картинки и скрипты из который собиралось. А как все классно спасибо!
Дополню
-долговато сколачивает и собирает
-кривовато собирает, если открыть собранный хтмл то страничка на секунду показывается в потом бац, но это не на всех станичках
Файл не найден
Firefox не может найти файл /I:/Torrents4/unipage/unipage/' c.lastTarget '.
Проверьте правильность введённого имени файла, соответствие регистра и отсутствие других ошибок в имени файла.
Проверьте, не был ли файл переименован, удалён или перемещён.
или вот скачал но не собирает
Parsing http://static.riotpixels.net/playo_gen/iframe-playo-vert-new.htm 1019 +++ call value value(listname).0,tagcnt 226 +++ call htmltaghunt filelist.n.guts,base_redir,'base.href' 196 +++ call htm_prepare j 157 +++ call main Error 40 running "i:\Torrents4\unipage\unipage\unipage.cmd", line 1019: Incorrect call to routine Error 40.26: VALUE argument 1 must be a valid symbol; found "<base href="http://ru.riotpixels.com">"
или вообще отказывается качать даже
Retrieving: "https://sexnod.com/show/822455201/ayelen-spun" SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = c:\Program Files (x86)\GnuWin32/etc/wgetrc Error: "https://---например сайт----" could not be retrieved. Done, 0.67s.
Добавлено 24-05-2017 03:51:06
12, я печатаю, как PDF.
Сколько я ПДФ принтеров перепробовал. Все не идеально сохраняют. Единственный кто идеально сохраняет это Adobe Acrobat Pro. Но он платный.
Отредактировано 12 (24-05-2017 04:15:17)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Похоже что кроме меня никто не озабочен тем как сохранять странички?!
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
12
Вам же давали разные способы сохранения, когда они перестанут работать придумают что-то другое, так что нет поводов для волнений.
Лучше спросить у знающих - чем лезть не зная.
Отсутствует
12Вам же давали разные способы сохранения, когда они перестанут работать придумают что-то другое, так что нет поводов для волнений.
Уже можно волноваться, кастомбаттонс перестанет работать уже в конце года
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Только нужно после загрузки присвоить собраному файлу расширение html так как он без него
Если на сервере файл без расширения, то скрипт с этим не борется, так без расширения и оставляет.
и удалить все картинки и скрипты из который собиралось.
Логично. Со стороны скрипта было свинство удалять исходники, скачанные не им. Мало ли зачем они ещё нужны. Особенно если они пользователем не просто скачаны, а ещё и старательно почищены.
-долговато сколачивает и собирает
До сегодняшнего дня запускать под Региной просто не пробовал, а под IBM-овским интерпретатором на Core2 самой первой серии скорость вполне приемлемая. Впрочем, я не галереи фотографий собираю, а технические статьи.
Firefox не может найти файл /I:/Torrents4/unipage/unipage/' c.lastTarget '.
или вот скачал но не собирает
Я бы первым делом полез разбираться, а правильную ли структуру имеют собираемые файлы. Потому что очень много раз встречал и незакрытые теги, и недопустимо пересекающиеся.
или вообще отказывается качать даже
Вот именно по этой ссылке страничка только что скачалась полностью и собралась. Подозреваю, что у Вас причина в том, что wget для работы с HTTPS надо или старательно настраивать, или задать "не проверять сертификаты".
Правда, для того, чтобы собранный файл сохранился, пришлось строчку 787 в скрипте изменить - не был он рассчитан на HTTPS://
if (left(translate(origin),7) = 'HTTP://') | (left(translate(origin),8) = 'HTTPS://') then do
А ещё по после успешного закрытия файла Регина в качестве кода возврата выдаёт не "READY:", а "UNKNOWN", на что не рассчитанный на такое чудо скрипт ложно сообщает об ошибке закрытия файла (строки 812-813). Исправление:
Отредактировано yup (25-05-2017 07:10:22)
Отсутствует
Если на сервере файл без расширения, то скрипт с этим не борется, так без расширения и оставляет.
пользователь не должен заботиться о том что не так на сервере
Со стороны скрипта было свинство удалять исходники, скачанные не им. Мало ли зачем они ещё нужны. Особенно если они пользователем не просто скачаны, а ещё и старательно почищены.
опять же єто кодерские привычки, обычному человеку только хлопоты лишние
До сегодняшнего дня запускать под Региной просто не пробовал, а под IBM-овским интерпретатором на Core2 самой первой серии скорость вполне приемлемая.
ну медленнее чем обычное сохранение или печать в пдф, вот я и обратил внимание
Впрочем, я не галереи фотографий собираю, а технические статьи.
Хороший код должен работать хорошо и для любого контента, или я не прав?
Я бы первым делом полез разбираться, а правильную ли структуру имеют собираемые файлы. Потому что очень много раз встречал и незакрытые теги, и недопустимо пересекающиеся.
Я не хочу никуда лесть. Мне нужно просто сохранить. Почему я должен переживать что сайт криво написан?
Вот именно по этой ссылке страничка только что скачалась полностью и собралась. Подозреваю, что у Вас причина в том, что wget для работы с HTTPS надо или старательно настраивать, или задать "не проверять сертификаты".
Правда, для того, чтобы собранный файл сохранился, пришлось строчку 787 в скрипте изменить - не был он рассчитан на HTTPS://
Воот. Это типичный Юникс Вэй. Там подбить, здесь подпилить и.т.д. шоб работало как надо.
В общем интересно но заморочено.
А нет ли подобного youtube-dl только для страничек, мне он нравиться там без заморочек.
Отредактировано 12 (25-05-2017 10:29:17)
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
пользователь не должен заботиться о том что не так на сервере
Тем более об этом не будет заботиться сторонняя (по отношению к северу) программа
yup пишетСо стороны скрипта было свинство удалять исходники, скачанные не им.
опять же єто кодерские привычки, обычному человеку только хлопоты лишние
Да? Вообще-то, если программа без спроса удаляет файлы, то тем самым её автор просто напрашивается под статью Уголовного кодекса.
ну медленнее чем обычное сохранение или печать в пдф, вот я и обратил внимание
Интерпретируемые программы всегда работают в сотни раз медленнее компилируемых.
yup пишетВпрочем, я не галереи фотографий собираю, а технические статьи.
Хороший код должен работать хорошо и для любого контента, или я не прав?
"Хорошо" и "быстро" - никак между собой не связаны. В работе данного скрипта самая время-/процессоро-ёмкая процедура - преобразование картинок (кодирование в Base64). Чем больше их совокупный размер, тем дольше процесс.
Я не хочу никуда лесть. Мне нужно просто сохранить. Почему я должен переживать что сайт криво написан?
Это сродни: "Мне нужно проехать по просёлку. Почему я должен переживать, что на нём доски с гвоздями разбросаны?"
Воот. Это типичный Юникс Вэй. Там подбить, здесь подпилить и.т.д. шоб работало как надо.
А-а, ясно. Выбрасываем эту недоделку и всё прочее, что на компьютере установлено, и ждём, пока кто-то не создаст универсальную программу с одной кнопкой: "Сделать то, что я хочу!"
Один вопрос только: Firefox под себя настраивался, расширениями обвешивался, или так в заводском состоянии и с умолчательными настройками и используется?
Отредактировано yup (25-05-2017 12:31:25)
Отсутствует
Firefox под себя настраивался, расширениями обвешивался, или так в заводском состоянии и с умолчательными настройками и используется?
Все верно спасибо, я как то совсем про єто забыл
А по теме. Если не затруднит.
Как научить этот скрипт корректно сохранять? Как если что избавляться от ошибок? Где и какие настройки wget смотреть?
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует
Пару изменений, которые нужно внести, я привёл выше (вместе с номерами строк).
Остаётся wget. Его настройки можно задавать в файле .wgetrc и/или командной строке. Я лично wget-том пользуюсь регулярно, поэтому у меня всё давно в .wgetrc вписано. Но и из скрипта он запускается не просто так, а с определёнными параметрами, поэтому технически проще дополнить сам скрипт.
Строка 863:
'wget --no-check-certificate -q -O '||target||' -U "'||UserAgent||'" --referer="'||referer||'" "'||url||'"'
Это 3 изменения, которые потребовались, чтобы нормально выкачать и пережевать приведённую в качестве примера страничку с sexnod.com.
Будут другие проблемные примеры - будем смотреть.
Отредактировано yup (25-05-2017 17:41:11)
Отсутствует
yup Ок сегодня попробую по Вашим советам сделать. Отпишусь.
зы в общем чем ближе я знакомлюсь с пк и *nix, тем больше понимаю смысл философии "юнис вэй". От простоты к совершенству. Но это простота, на самом деле очень сложна как по мне, так как все приходится кодить руками. Без кодерских навыков в стране *nix никак.
для сохранения вэбстраничек целиком
SingleFile
Save Page WE
Web Scaprapbook
Отсутствует