Исторический форум (форум по истории)

Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

 
Исторический форум
  Главная Правила форума СправкаПоискУчастникиВходРегистрацияОбщее сообщение Администратору форума »» переход на Историчка.Ru  
 
Страниц: 1 2 
Печать
Следы выемки архивных документов (Прочитано 11939 раз)
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Следы выемки архивных документов
08.09.2011 :: 00:00:25
 
Впервые я осознал возможности ресурса Гуглэнграмс, когда устанавливал точный период хронологических правок - вот здесь:
http://livehistory.ru/tochnyj-period-hronologicheskih-pravok.html

Сам ресурс - вот он: http://ngrams.googlelabs.com/graph?content=1936%2C1937%2C1938%2C1939&year_start=...

Покажу два десятка забавных картинок.

1917 год описан в британских источниках чрезвычайно подробно. Обратите внимание на резкий рост интереса.

...

То же самое во Франции.

...

А вот в Германии - не так. Страна, пережившая революцию и проигравшая войну, не пожелала делиться архивными данными с общественностью.

...

И еще хуже в России. Только в 1960-х есть скачок числа вскрытых документов. Самый секретный в России год - 1916-й.

...

А теперь промежуток 1860-1870-х годов. Англия. Видите это резкое падение данных? Как думаете, что они прятали?

...

А вот Франция. И здесь ситуация принципиально иная. Виден резкий дефицит сведений ранее 1874 примерно года. Это следы масштабной выемки бумаг для отправки их в 1789, 1830 и, видимо, в 1848 годы.

...

Та же ситуация и в Германии, воевавшей с Францией синхронно с французскими революциями, как выясняется, как минимум, наполовину подложными.

...

А вот в России пострадали 1861 год и то, что ранее. Почему? Не знаю.

...

Вот любопытный взгляд издалека. Нет никаких причин для такого перепада числа упоминаний этих дат - кроме выемок с последующими манипуляций с датами.

...

На днях прогнал я через экселевскую сводную таблицу слова, употребляемые во французской википедии. При описании этих 200 лет 18-19 веков вики использовала чуть больше 18 тысяч слов. Я забил наиболее употребимые и, разумеется обнаружил старые знакомые провалы в числе упоминаний тех или иных слов.

...

...

...

Французы об этих провалах знают и в меру сил пытаются заполнить пробелы трухой, например, своими великими писателями. Лидеры - Гюго и Бальзак. Событиями типа "В. Гюго поехал на воды" выравниваются ямы там, где есть физический недостаток исторических данных.

Ясно, что отбрасывание данных назад привело к перекосам. Вот прелюбопытнейший график. Де факто, 1783 год стал годом рождения страны. Резко взлетела употребляемость таких слов как политика, нация, правительство, министры, король.

...

Никаких логических причин к тому нет. Они есть во второй половине 19 века. Вот не менее интересный график. Обратите внимание на взлет употребления слов Республика и Парламент - задолго до первой Французской революции. Вот она - расплата за мошенничество.

...

Вообще, во Франции употрябляемость слов Парламент и Республика заметно падает как раз в период парламентских республик. Причина очевидна: данные о революциях и республиках (их было максимум две, но никак не четыре) растащили почти на сто лет.

...

Лучше всего проверять такие штучки на нейтральных словах, например, на названиях месяцев. Смотрите, вот безумный взлет упоминаемости месяцев года в Англии. Это не месяцы стали популярнее, это результат масштабного вброса бумаг в прошлое - для удревнения Шекспиров и королей Артуров.

...

И вот красота во Франции. Документооборот должен растти, но число слов падает Смайл

...

И совсем уж замечательно процесс пошел в Испании. Что бы мог значить этот провал около 1870-х годов? А это результат выемки бумаг - для создания колумбов и кортесов.

...

Вот прелесть. Видите, когда в России впервые занесено на бумагу слово "боярин"?

...

И вот красивый график из нейтральных французских предлогов. Провал в 1707 году. Вымарана целиком история вулканической зимы, оставшаяся только в сведениях некатолической Европы.

...
Наверх
« Последняя редакция: 08.09.2011 :: 00:11:44 от andrew1707 »  
orbita
Профессор
*****
Вне Форума



Сообщений: 2192
Пол: male
Re: Следы выемки архивных документов
Ответ #1 - 08.09.2011 :: 01:13:07
 
А прикольный метод! Смайл
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #2 - 08.09.2011 :: 01:38:06
 
andrew1707 писал(а) 08.09.2011 :: 00:00:25:
Вот прелесть. Видите, когда в России впервые занесено на бумагу слово "боярин"?

Нет, мы видим что в Гугл Букс есть распознанные книги с упоминанием слова "боярин" начиная с некоторой даты. И что?
Кроме того вы забыли о том что поиск осуществляется в точном соответствии с образцом, так что пляски вокруг "боярина" породят несколько другую картину, см. вложение.
Вы не учитываете, что слова могли меняться.
Вы не учитываете, что слова расставляются по времени их опубликования и дополнить "провал" уже никак нельзя.

Ну и не надо забывать о том, что:
Цитата:
Согласно данным создателей Ngram Viewer, в мире с 15 века было опубликовано 129 миллионов книг. В настоящее время оцифрована еще незначительная их часть, около 12 миллионов, а проанализировано (то есть хранится уже не в виде картинки, а в виде текста) лишь около 5 млн. книг. Это значит, что корпус книг, доступный для анализа, составляет около 4 процентов от всего объема изданных книг.


И с французскими предлогами у вас не рядом, ибо минимум их употребления в распознанных книгах приходится на 1706й год.
Так что, традиционно для вас, сенсация провалилась с треском
Наверх
 

Snimok2.JPG (38 KB | )
Snimok2.JPG
Snimok3_001.JPG (38 KB | )
Snimok3_001.JPG

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #3 - 08.09.2011 :: 18:21:45
 
Antistatik писал(а) 08.09.2011 :: 01:38:06:
И с французскими предлогами у вас не рядом, ибо минимум их употребления в распознанных книгах приходится на 1706й год.
Так что, традиционно для вас, сенсация провалилась с треском

Я склонен с Вами согласиться - насчет бояр. Я поторопился - уж очень поразителен график.

А вот с периодом 1704-1711 годов Вам бы лучше не высовываться, а то я размещу специальную статью посвященную именно этому периоду.
А, в общем, спасибо.
Наверх
 
orbita
Профессор
*****
Вне Форума



Сообщений: 2192
Пол: male
Re: Следы выемки архивных документов
Ответ #4 - 08.09.2011 :: 20:09:33
 
andrew1707 писал(а) 08.09.2011 :: 18:21:45:
А вот с периодом 1704-1711 годов Вам бы лучше не высовываться, а то я размещу специальную статью посвященную именно этому периоду.

Статью в студию. Не стесняцтесь применять крупнгокалиберные аргументы. А то "враг" вот-вот очухается. Очень довольный
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #5 - 08.09.2011 :: 20:24:41
 
andrew1707 писал(а) 08.09.2011 :: 18:21:45:
А вот с периодом 1704-1711 годов Вам бы лучше не высовываться, а то я размещу специальную статью посвященную именно этому периоду.

Страшно аж жуть Подмигивание
Статью не надо, достаточно ссылки, но это не важно, вы не со мной спорьте а с гуглом, который минимум показывает не в 1707м, как вам хочется, а в 1706м. Более того вы сглаживание в 0 поставьте и полюбуйтесь на результат, он очень необычен.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #6 - 08.09.2011 :: 20:28:46
 
Колебания в пределах 1-2 лет в хронологии норма. Скажу больше, обычно колебания происходят в пределах минус 3, плюс 5 лет. Это не страшно.

Статья давно написана, но ее надо бы переделать, появились новые факты. Если хотите, выложу ссылку и основные события этого периода.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #7 - 08.09.2011 :: 20:50:15
 
andrew1707 писал(а) 08.09.2011 :: 20:28:46:
Кол##ания в пределах 1-2 лет в хронологии норма. Скажу больше, обычно кол##ания происходят в пределах минус 3, плюс 5 лет. Это не страшно.

Смайл Что значит не страшно? Вы сглаживание убирали?
так я картиночку выложу, любуйтесь Смайл

andrew1707 писал(а) 08.09.2011 :: 20:28:46:
Статья давно написана, но ее надо бы переделать, появились новые факты. Если хотите, выложу ссылку и основные события этого периода

Нет, не хочу, я не спорю с вашими умозаключениями, я просто демонстрирую, что вы неправильно используете и неправильно интерпретируете результаты применения Books Ngram Viewer и всё.
Наверх
 

Snimok.PNG (49 KB | )
Snimok.PNG

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #8 - 08.09.2011 :: 20:56:51
 
Спасибо.
Суть дела от этого не поменялась, но да, так выглядит интереснее.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #9 - 08.09.2011 :: 23:19:51
 
andrew1707 писал(а) 08.09.2011 :: 20:56:51:
Суть дела от этого не поменялась, но да, так выглядит интереснее.

И непонятнее, вы думаете что в минимумы просто нет печатных источников? Это не так, книги напечатанные в эти годы присутствуют. Так что вы сначала разберитесь что же вы получаете а потом говорите о сути, и меняют ли результаты эту самую суть. А пока результаты, полученные на ограниченном множестве исходных данных и по непонятной методике, ничего не доказывают.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #10 - 09.09.2011 :: 00:17:13
 
Antistatik писал(а) 08.09.2011 :: 23:19:51:
И непонятнее, вы думаете что в минимумы просто нет печатных источников? Это не так, книги напечатанные в эти годы присутствуют. Так что вы сначала разберитесь что же вы получаете а потом говорите о сути, и меняют ли результаты эту самую суть. А пока результаты, полученные на ограниченном множестве исходных данных и по непонятной методике, ничего не доказывают

А вот здесь Вы правы лишь отчасти. У меня огромный опыт работы с крупными массивами данных - от 300 до 60 тысяч строк одновременно. И, знаете, базовые закономерности выглядят одинаково - и в малых объемах, и в больших.
Скажу больше. Мне известны две крупных конторы, сознательно манипулирующие данными, чтобы история выглядела прилично - они реально выравнивают графики. Но это ни от чего их не спасает: стоит чуть-чуть отойти от ИХ схемы и применить простой арифметический фортель, которого они не учли ( а все учесть немыслимо), и все всплывает. Ужжасно красивая вещь математика.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #11 - 09.09.2011 :: 00:53:40
 
andrew1707 писал(а) 09.09.2011 :: 00:17:13:
А вот здесь Вы правы лишь отчасти. У меня огромный опыт работы с крупными массивами данных - от 300 до 60 тысяч строк одновременно. И, знаете, базовые закономерности выглядят одинаково - и в малых объемах, и в больших.
Скажу больше. Мне известны две крупных конторы, сознательно манипулирующие данными, чтобы история выглядела прилично - они реально выравнивают графики. Но это ни от чего их не спасает: стоит чуть-чуть отойти от ИХ схемы и применить простой арифметический фортель, которого они не учли ( а все учесть немыслимо), и все всплывает. Ужжасно красивая вещь математика.

Ну как вы пользовали Books Ngram Viewer говорит о том, что у вас либо большой опыт получения нужных а не правильных данных, либо слова "большой опыт" не соответствуют действительности. Как-то так.ИМХО не понимать ущербности примера с французскими предлогами просто невозможно, особенно при наличии "большого опыта". Смотрите как выглядит ситуация с английскими словами с высокой частотностью, как на большом промежутке, так и на узком участке. Где ваши провалы? Заметьте это без сглаживания. Так что Books Ngram Viewer ваших бред теорий не подтверждает. Подмигивание
Наверх
« Последняя редакция: 09.09.2011 :: 01:10:04 от Antistatik »  

______14.JPG (62 KB | )
______14.JPG
______15.JPG (44 KB | )
______15.JPG

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #12 - 09.09.2011 :: 17:32:42
 
А вот подменять - стыдно.
У Вас - АНГЛИЙСКИЙ ЯЗЫК, а не французский. Катастрофа 1707 года в некатолических странах освещена неплохо.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #13 - 10.09.2011 :: 01:10:49
 
andrew1707 писал(а) 09.09.2011 :: 17:32:42:
А вот подменять - стыдно.
У Вас - АНГЛИЙСКИЙ ЯЗЫК, а не французский. Катастрофа 1707 года в некатолических странах освещена неплохо.

Язык в данном случае абсолютно не важен, можете посмотреть результаты на немецком, это будет уже третий вариант Смайл
Я же вам показал результаты на английском языке с целью подвести к простой мысли: книги на английском языке банально представлены в бОльшем объёме. если вас интересуют конкретные числовые данные, то книг на английском 3 288 288 штук, а на французском 389 857 штуки. В разрезе же по векам будет вообще вот так:
Французский язык: 16й век- 10, 17й - 90, 18й - 3921 (причём до 1750го года только 371)
Английский: 16й век- 19, 17й - 216, 18й - 10928 (2539 до 1750го)
Именно бОльшее наполнение исходными данными объясняет более ровные графики для английского языка.
В виде гуманитарной помощи я вам поясню почему график вот в этомhttp://forum.istorichka.ru/cgi-bin/yabb2/YaBB.pl?num=1315425625/7#7 моём сообщении имеет именно такую форму. Потому как он построен по следующему набору данных:
год/число книг
1700            6
1701            6
1702            3
1707            1
1710            4
1711            2
1712            1
1713            2
1714            3
1715            1

Так что жизнь не так проста как вам кажется, она проще.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #14 - 10.09.2011 :: 01:27:59
 
Это ничего не меняет.
Проверено многократно: сколько базу ни пополняй, а общие закономерности выйдут те же.

У французов один черт останутся проблемы с хронологией. Там крупные системные провалы допущены.

Две лучших истории - у Англии и России (российская вообще - высший образец). Лучшие не потому что много книг в интернете вывалено, а потому что спецы грамотно сработали.

Худшая хронология в Парагвае - 1-й приз за глупость.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #15 - 10.09.2011 :: 01:43:03
 
andrew1707 писал(а) 10.09.2011 :: 01:27:59:
Это ничего не меняет.
Проверено многократно: сколько базу ни пополняй, а общие закономерности выйдут те же.

Ну вот теперь мне понятен ваш "большой опыт". За сим откланиваюсь , т.к. биться о ваше непонимание, укреплённое верой, считаю затеей малоперспективной.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #16 - 10.09.2011 :: 09:29:11
 
Antistatik писал(а) 10.09.2011 :: 01:43:03:
Ну вот теперь мне понятен ваш "большой опыт". За сим откланиваюсь , т.к. биться о ваше непонимание, укреплённое верой, считаю затеей малоперспективной.

Удачи.
А между тем, я не сказал ничего крамольного. Я это проверил в деле на самых разных базах.

Если у каждой из 100 пар кроликов рождается в среднем 800 крольчат, у 1000 пар родится 8000.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #17 - 10.09.2011 :: 14:21:52
 
andrew1707 писал(а) 10.09.2011 :: 09:29:11:
Если у каждой из 100 пар кроликов рождается в среднем 800 крольчат, у 1000 пар родится 8000.

Продолжайте добавлять белых кроликов и доказывать свои теории отсутствием чёрного потомства.  Подмигивание

ЗЫ. Отсутствие вашего интереса к тому откуда я знаю количество книг в выборке с точностью до единиц весьма показательно.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
andrew1707
ReadOnly
Вне Форума



Сообщений: 480

АИНХ
Re: Следы выемки архивных документов
Ответ #18 - 10.09.2011 :: 14:25:28
 
Antistatik писал(а) 10.09.2011 :: 14:21:52:
Отсутствие вашего интереса к тому откуда я знаю количество книг в выборке с точностью до единиц весьма показательно.

Я заценил это Ваше умение. Просить не хочется.

Я в подобных случаях обязательно выкладываю механизм - именно для того, чтобы собеседнику не приходилось просить.
Наверх
 
Antistatik
Гуру
******
Вне Форума



Сообщений: 2989
Пол: male

БТИСМ
Re: Следы выемки архивных документов
Ответ #19 - 10.09.2011 :: 18:43:46
 
andrew1707 писал(а) 10.09.2011 :: 14:25:28:
Я заценил это Ваше умение. Просить не хочется.

Странная позиция, ну да ладно, тот же Books Ngram Viewer:
Цитата:
Run your own experiment! Raw data is available for download here.

Дальше сами.
Наверх
 

Такая странная  вещь - речь, ведь если хочешь, ею можно выразить все, что угодно,  хоть  устно, хоть на  бумаге...  Есть  только  большая вероятность,  что  тебя  поймут неправильно.
Страниц: 1 2 
Печать