Официальный форум Новой Посмотрелки!

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Официальный форум Новой Посмотрелки! » Начало проекта » Есть работа... МНОГО РАБОТЫ!


Есть работа... МНОГО РАБОТЫ!

Сообщений 1 страница 30 из 69

1

Народ, у нас нарисовалась работа:

Есть куча файлов, содержащих вики-исходники статей (именно вики-исходники, то есть со всей разметкой, ссылками и прочим).

Нужно одно из двух:

1) Парсер, который сможет эти файлы разобрать и вытащить именно вики-размеченный текст, после чего вставит в нашу энциклопедию по определенным правилам.

2) Ручная работа: открываем файл, копируем текст, создаем статью, вставляем текст, открываем следующий файл....

Первое - нужна помощь волонтера-программиста (файл-образец я предоставлю).

Второе - нужно просто дофига народа, готового работать руками: делим файло по принципу "мне буквы а-в, тебе г-е" и так далее и начинаем фигачить по мере сил и возможностей.

Прошу волонтеров-добровольцев отписываться тут.

0

2

Ссылку на архив старой посмотрелки уже можно здесь опубликовать (и на самом сайте тоже).

А дальше - добровольнопринудительно народ разбирает, кому что по душе.

0

3

Простите, возможно, это уже обсуждалось, но нельзя ли решить вопрос более изящно, чем ручной копипейст? Ну, вдруг у кого-то завалялась выгрузка XML, которую можно взять и импортировать одним махом? Это позволило бы сохранить, в частности, информацию об авторах всех правок.

У меня имеется кое-какой опыт в переносе заброшенного создателями проекта; правда, там была маленькая вики на ~500 статей. В частности, могу подсказать, что поковырять в базе, чтобы выпилить автоматически сгенерированные при импорте мусорные правки уровня «Статья была импортирована такого-то числа» и оставить именно даты последних реальных изменений.

0

4

Окей.

Часть (это примерно 10% статей, если не меньше) того, что уже выкачано - лежит тут

https://disk.yandex.ru/d/yrTCeRwUVeKJCA

Качаем файл, распаковываем, открываем папку.

Там куча файлов вида index.php-название статьи.

Открываем файл двойным кликом - должен спокойно открыться браузером. Иначе - открываем через блокнот.

Если открылся браузером то у вас прямо окошко будет в котором сразу исходный код всей статьи в последней редакции в вики-разметке.

Открываем нашу вики и вводим в поиск название статьи. Если она находится - значит вас опередили :-) Если нет - то будет красная ссылка "создать страницу". Жамкаем туда  и копируем исходный код в пустое поле. Жмем сохранить.

Все. Страница страница создана. Переходим к следующей.

Если файл открывается только через блокнот - ищем в мешанине кода тот же текст статьи в виде исходников. Копируем. Дальше - все так же.

В общем, работаем, мальчики и девочки. Возвращаем себе посмотрелку.

А я пока новую порцию статей тащу. Точнее парсер тащит - а я ускакал по делам.

+1

5

Гм... Выгрузил для пробы статью, которую когда-то создал на посмотрельнике (к счастью я бэкап хранил на компе) и обнаружил, что шаблонов на сайте пока нет.
Вопрос, что с этим делать? Пока я загрузил без кусков с ними, но могу их обратно добавить, если при воссоздании нужных шаблонов всё встанет как надо. Или лучше это сделать после?
Для примера один из пока убранных кусков:
{{Info/Book
|image = [[Файл: MoDaoZuShi.jpg|thumb|right]]
|book_name = Mo Dao Zu Shi
|name = «Магистр дьявольского культа»
|original name = Módào Zǔshī/魔道祖师
|author = Мосян Тунсю
|illustrator =
|director = JJWXC (КНР), PINSIN STUDIO (Китайская республика), Истари Комикс (Россия)
|language = китайский (оригинал)
|year = 31 октября 2015 года
|type = [[веб-роман]]
|genre = [[Уся|санься]], [[Яой|даньмэй]]
|volumes = 1 (веб-формат), 4 (печатный формат)
|Age limit = 18+
}}

И отдельно по картинкам - на старом сайте они, насколько я понимаю, хранились на внутреннем сервере и из текста их не вытащишь. Получается их надо вновь загрузить? Или можно дать внешнюю ссылку?
Опять же для примера, как это выглядит в текстовом виде:
[[Файл:UntamedThumb.png|мини|Те же лица, но в дораме «Неукротимый: повелитель Чэньцин». Чэньцин — флейта Вэй Усяня, игрой на которой он контролирует духов]]

Плюсом ещё заметил: ссылка на подстатью о персонажах имеет следующий вид {{main|Mo Dao Zu Shi/Персонажи}} и при нажатии на неё открывается "Создание страницы «Шаблон:Main»", а не логичное казалось бы "Создание страницы «Mo Dao Zu Shi/Персонажи»". Оно так и должно быть?

Отредактировано Flamme (2022-03-22 21:54:57)

0

6

Fox написал(а):

Часть (это примерно 10% статей, если не меньше) того, что уже выкачано - лежит тут

https://disk.yandex.ru/d/yrTCeRwUVeKJCA

Прочитать список файлов, из каждого получить кусок сырой вики-разметки от <textarea> до </textarea>, поименовать по-нормальному с учётом namespace — дело нехитрое. У меня прога на Питоне почти готова, там меньше сотни строк. Уже сейчас прикинула, что конкретно по данному архиву имеем следующее:
Всего HTML-файлов — 12978.
Из них тех, что с полем ввода (action=edit), — 12384. Остальные — action=history и action=info.
Из этих 12384 штук:
1928 redlinks, то есть несуществующие статьи.
1151 страниц с пустой формой ввода; как правило, там же и redlink рядом.
1571 кусочков статей, когда предлагается отредактировать конкретный раздел (section).
Ну и 7734 статьи потенциально можно импортировать.

Для запихивания текстовых файлов в энциклопедию, полагаю, подойдёт стандартный скрипт:
https://www.mediawiki.org/wiki/Manual:I … tFiles.php

Код:
php importTextFiles.php -u "Коллектив авторов posmotre.li" -s "Спасено благодаря Wayback Machine" --prefix "Обсуждение_участника:" *.txt

Конечно, сначала нужно будет протестировать на малом объёме.

Отредактировано Ambidexter (2022-03-22 22:41:36)

0

7

Flamme написал(а):

обнаружил, что шаблонов на сайте пока нет.
Вопрос, что с этим делать?

Надеяться, что они сохранились в WayBack Machine и мы сможем их перенести.
Пока что среди первых 12 тысяч файлов нашёлся только один шаблон — Навигация.

Flamme написал(а):

И отдельно по картинкам - на старом сайте они, насколько я понимаю, хранились на внутреннем сервере и из текста их не вытащишь. Получается их надо вновь загрузить? Или можно дать внешнюю ссылку?

А вот это интересный момент, подождём ответа админа. Припоминаю, что на старом Посмо был шаблон для обращения к внешним изображениям, да только он не работал ни фига ))

0

8

В WayBack Machine действительно сохранились шаблоны.

Я пока что запилил страницы для основных рубрикаторов с глагне, временно вырезав из них ссылки на все шаблоны, кроме Q (слишком много резать).

Вот его исходный код:

{| class="quote" style="margin:16px auto auto; border-collapse:collapse; background-color:transparent; border-style:none; width:{{{width|auto}}};"
| style="width:30px; padding-left:25px; vertical-align:top; text-align:left; color:silver; font-size:2.5em; font-family:serif; font-weight:bold;" |«
| <span class="quote" style="display:block; text-align:{{{text-align|{{{ta|left}}}}}}; {{#if:{{{pre|}}}|white-space:pre-wrap; word-wrap: break-word;|}}">{{{1}}}</span>
| style="width:30px; padding-right:25px; vertical-align:bottom; text-align:right; color:silver; font-size:2.5em; font-family:serif; font-weight:bold;" |»
|-
| colspan="3" style="font-size:80%; text-align:right; padding: 0px 30px;" |{{#if: {{{noanon|}}}||— {{{2|Автор неизвестен}}}}}
|}<noinclude>{{doc}}</noinclude>

Утром попробую разобраться с тем, как работают шаблоны, если кто-то успеет загрузить его в викию раньше - буду только рад.

0

9

Ссылка на снепшот покойной посмотрелки в WBM

0

10

Ambidexter написал(а):

Надеяться, что они сохранились в WayBack Machine и мы сможем их перенести.
Пока что среди первых 12 тысяч файлов нашёлся только один шаблон — Навигация.

А вот это интересный момент, подождём ответа админа. Припоминаю, что на старом Посмо был шаблон для обращения к внешним изображениям, да только он не работал ни фига ))

Загружать заново, скорее всего.

Кстати, имейте в виду, что Амбидекстер скромничает. Админа я ей сейчас дам, ssh на сервер тоже. Пусть резвится.

0

11

Поясните ещё насчёт шаблонов. Я загрузил несколько, посмотрите как криво они работают. Я всё правильно делаю? А то многие шаблоны выгрузил, но что с ними делать не знаю

0

12

В общем я попробовал помучиться с шаблонами, наверное после меня теперь много разгребать, больше лезть не буду. Запустите шаблоны, а то пока смысла что-то тут всерьёз делать нету

0

13

До меня дошло. Прежде чем копировать статьи и шаблоны, надо установить набор расширений. Посмотрите вот этот снапшот и сравните с соответствующей страницей на зеркале. Надо всё установить, шаблоны заработают. Пока этого не сделаете, энциклопедия нормально работать не будет, пока что это экскурс год в 2003

0

14

Гришка Мразев написал(а):

До меня дошло. Прежде чем копировать статьи и шаблоны, надо установить набор расширений. Посмотрите вот этот снапшот и сравните с соответствующей страницей на зеркале. Надо всё установить, шаблоны заработают. Пока этого не сделаете, энциклопедия нормально работать не будет, пока что это экскурс год в 2003

Ага, понял. Значит сегодня буду ставить.

0

15

Гришка Мразев написал(а):

До меня дошло. Прежде чем копировать статьи и шаблоны, надо установить набор расширений. Посмотрите вот этот снапшот и сравните с соответствующей страницей на зеркале. Надо всё установить, шаблоны заработают. Пока этого не сделаете, энциклопедия нормально работать не будет, пока что это экскурс год в 2003

Хм, а шаблон "Цитата" заработал и до расширений.

0

16

Ну.... Значительную часть поставил.

К сожалению - не втыкаются ликфидтредс

0

17

Кейн написал(а):

Хм, а шаблон "Цитата" заработал и до расширений.

Хрен там :-) Это я колдую :-)

На сегодня, пожалуй, хватит. Пока я не пойму, почему не отрабатывает обновление через PHP - трогать систему я не буду, пока совсем не уронил.

0

18

По факту - нужна помошь Эмбидекстер.

0

19

А вот и новая порция статей (а так же картинок и прочего)

https://disk.yandex.ru/d/W78K3EIw3yQ61g

0

20

Нашёл в обсуждениях викитропов вот эти страницы. Что скажете?
https://archive.fo/http://posmotre.li/*
https://web.archive.org/web/*/posmotre.li/*

Отредактировано Гришка Мразев (2022-03-25 01:09:15)

0

21

Ребят, если актуален перенос статей вручную, можно, пожалуйста, инструкцию по вытаскиванию полезной информации из файлов html?

0

22

RARAPUT написал(а):

Ребят, если актуален перенос статей вручную, можно, пожалуйста, инструкцию по вытаскиванию полезной информации из файлов html?

Конкретно из HTML бесполезно. Там уже сгенерированная страница. Я на глагне Тортуги выкладывал инструкцию - как и что делать. Народ по ней статьи как из пулемета клепает.

0

23

Да, я её видел. Только сработает не для всех статей, т. к. для некоторых отсутствуют эти файлы. Я там пока занялся статьями потихоньку, только интересные мне статьи как раз таких не имеют. В итоге я стал вытаскивать код из архива https://web.archive.org/web/20211006112824/https://posmotre.li/Правила_злого_властелина - например. http://posmotreli.su/index.php/Правила_злого_властелина - так это сейчас на новой посмотрелке выглядит, например. Такой метод пойдёт, кстати, или не желательно?

Отредактировано RARAPUT (2022-03-25 20:23:46)

0

24

RARAPUT написал(а):

Да, я её видел. Только сработает не для всех статей, т. к. для некоторых отсутствуют эти файлы. Я там пока занялся статьями потихоньку, только интересные мне статьи как раз таких не имеют. В итоге я стал вытаскивать код из архива https://web.archive.org/web/20211006112 … властелина - например. http://posmotreli.su/index.php/Правила_злого_властелина - так это сейчас на новой посмотрелке выглядит, например. Такой метод пойдёт, кстати, или не желательно?

Отредактировано RARAPUT (Сегодня 20:23:46)

Да, безусловно. Еще, код можно брать с неолурка. Они спасли часть статей. Только там внимательнее - часть они уже и отредактировали до неузнаваемости.

0

25

Гм... Проглядывал тут сайт и возник вопрос: а откуда берутся данные для переноса?
Просто текущая версия статьи Полное_чудовище/Аниме, манга, ранобэ на сайте весьма отлична от той, что помню я - как минимум двух своих правок в ней я не увидел. Но при этом некоторые другие статьи вполне себе не изменились.

Отредактировано Flamme (2022-03-27 02:28:32)

0

26

Flamme написал(а):

Просто текущая версия статьи Полное_чудовище/Аниме, манга, ранобэ на сайте весьма отлична от той, что помню я - как минимум двух своих правок в ней я не увидел. Но при этом некоторые другие статьи вполне себе не изменились.

Последний корректный снепшот посмотрелки в WBM от начала февраля, возможно, кто-то успел до закрытия сайта внести изменения.

0

27

Кейн написал(а):

Последний корректный снепшот посмотрелки в WBM от начала февраля, возможно, кто-то успел до закрытия сайта внести изменения.

В том-то и дело, что версия намного-намного более ранняя. Вот, например, версия этой статьи из архива за май 21-го. Отличия очевидны.
При этом, например, статья Козёл с золотым сердцем вполне совпадает со слепком из архива за октябрь 21-го.

Отредактировано Flamme (2022-03-27 10:56:49)

0

28

И ещё вопрос - как с картинками дела? Они на сервер на загружаются почему-то.

0

29

Мои коллеги по конторе, к сожалению, не смогли вытащить данные с сайта-родоначальника. По очень простой причине - господа СЖВ-шники просто все снесли к хренам. То есть контроль-то ребята получили. Но внутри нашли лишь список файлов. Все остальное было жестко зачищенно. Подозреваю - именно, что бы не получилось вытащить данные. Допускаю, что у них где-то есть бэкап, хотя, по косвенным данным (в частности, в "политбюро" на момент закрытия старой "Посмотрельни" входило аж ПЯТЕРО украинцев самого пронацистского толка), скорее всего проект был закрыт сразу и навсегда.

В итоге - данные тянутся при помощи гем-утилиты "интернет вейбэк мэшин даунлоадер". Это такая интересная хреновина, которая позовляет вытаскивать образ сайта из IWBM.

Проблема в том, что в веб-архиве много "инкрементальных" слепков. Для обычного сайта в этом ничего страшного. В вики же - происходит "расслоение" статей. Зачастую - с утратой версий. То есть эту страницу сняли сегодня и поставили в очередь через год. А эту - три месяца спустя. К первой - еще не возвращались, а на ней уже тонна правок.

К сожалению - это приводит к утрате актуального образа статьи.

В связи с этим, я рекомендую в спорных случаях использовать версию с "Неолурка" (да простят нас коллеги, но у нас миссия, от которой мы не имеем право отклонится. Да и однажды украденное снова украденным не считается :-). И вообще мы наследники старого сайта :-) ).

Вообще, с учетом огромной нагрузки которая легла на ребят запиливающих статьи, я бы советовал не нагружать их дополнительными задачами, а самовыдвинуться добровольцам-патрулирующим. Которые бы по мере возможности проверяли (как минимум популярные) статьи на актуальность и при неактуальности - апдейтили их данным с неолурка.

Вот Flamme, серьезно - самое время зарегистрироваться и помочь.

0

30

RARAPUT написал(а):

И ещё вопрос - как с картинками дела? Они на сервер на загружаются почему-то.

Чуть-чуть попозже разберусь. Пока оставляйте "красные ссылки". Сейчас решим вопрос с миграцией в ЦОД и я буду разбираться как включить картинки. Формально - файлы вроде грузятся. На крайний случай - я их положу через консоль. Для этого надо будет полную базу картинок выкачать. Шанс на это так же есть.

В общем чуточку терпения. Все будет. Сейчас, пока, нам важно восстановить все статьи. И мы, хочу сказать, движемся с бешенными темпами. Дума, что уже сегодня будет более 2 тысяч статей. Из всего 14 тысяч. То есть "Викитропы" мы такими темпами обгоним примерно через неделю :-)

А после статей - настанет время для картинок, и, возможно, если получится, историй правок и прочих обсуждений.

0


Вы здесь » Официальный форум Новой Посмотрелки! » Начало проекта » Есть работа... МНОГО РАБОТЫ!