Совмещение ежа с ужом или как я пытаюсь "подружить" академическую “библию статистика” с вычислительной статистикой хакера

Совмещение ежа с ужом или как я пытаюсь “подуржить” академическую библию статистика с вычислительной статистикой хакера

Следствием того, что я влюбился в дата-сайнс, стал поиск курсов и образовательных программ, которых, оказывается, куча. Читающие меня друзья начали советовать ШАД, Вышку, курсы Карпова и т. д.

Изучая лендинги, созваниваясь и общаясь с выпускниками курсов аналитики данных и университетов, я начал ощущать, что что-то «не так», а степень «нетакости» мне понять было сложно. Тогда я попросил пару учреждений прислать мне их учебные программы. Я же все-таки «пИдагог», мне нетрудно разобраться в том, чему они учат и какими дидактическими средствами достигают результата. Вывод для меня оказался неутешительным.

Все эти, без ложной скромности, уважаемые учреждения воспитывают и обучают бизнес-аналитиков, задача которых — работа с продуктом, обработка несистематизированных данных, АБ-тесты по продукту и прочие бизнес-штучки, которые к моему запросу не имеют никакого отношения.

Да, на этих курсах меня научат статистике, немного или много пайтону. Я научусь работать с библиотеками (pandas, matlab и т. д.) и получу навыки визуализации информации, но… чего из этого я сейчас не умею? Немногого.

Да, с ограничениями, да, с условностями, но большая часть того, чему меня будут учить, мне или не пригодится, или ограниченно пригодится. На обучение необходимо заложить от 8 месяцев до 2 лет, а на выполнение домашек, которые не имеют отношения к моей прямой деятельности (а именно педагогическим исследованиям), потребуется еще от 10 часов в неделю. Ой-ой, у меня и так проектов в «портфеле» кучка и еще маленький кармашек. Обучение в универе на аналитика данных — не мой вариант. Что в таком случае делать?

Правильно, составить свой план обучения, формализовать материал, по которому я буду учиться, и спроектировать теоретико-практические занятия. Но перед всем этим мне нужно ответить на вопрос «зачем» мне учиться аналитике данных (а уже потом, может быть, и дата-сайнс).

Мой ответ звучит так: научиться проводить эмпирические исследования для публикации в разного рода журналах и прочей научной деятельности, связанной с опросами, замерами и обработкой иных «повседневных» данных, которых накапливается огромное множество.

Я осознаю свои пробелы в знаниях статистики, пайтона (эксель я сразу не рассматриваю) и математики.

С математикой все просто, я же работаю в школе, поэтому «будет» мне учитель, так сказать, не выходя с работы. Со статистикой и исследованиями все значительно сложнее, а с пайтоном еще сложнее: у меня или отсутствуют, или крайне скудные навыки в методах стат.анализа и написания кода на пайтоне. Но подобного рода трудности меня лишь возбуждают, в хорошем смысле слова.

Где-то за пару месяцев я собрал список книг по статистике и пайтону, начал в вялотекущем режиме в них ковыряться: читать, что-то пробовать, но системности не было, пока мне не присоветовали Downey A. B. Think Stats: Exploratory Data Analysis / A. B. Downey, Sebastopo, CA: O’Reilly Media, 2025. 321 c., и случилась Эврика.

Отдыхая на Рождество на даче, у меня появился план. 7 книг — это слишком много, все, что более двух, является информационным передозом. Очевидно, что мне нужно «нечитать», как, собственно, я всегда и делаю, но даже, если «нечитать» — 7 книг все равно много. Мне нужно остановиться на двух (почему двух? Одна — теория, другая — практика). Мне нужно выбрать из семи одну по методам стат.анализа, а другую — по пайтону применительно к статистике. Вот они:

  1. Privitera G. J. Statistics for the Behavioral Sciences / G. J. Privitera, Los Angeles London New Delhi Singapore Washington DC Melbourne: SAGE Publications, Inc, 2024. 960 c.
  2. Downey A. B. Think Stats: Exploratory Data Analysis / A. B. Downey, Sebastopo, CA: O’Reilly Media, 2025. 321 c.

Прочитав внимательно оглавление, я понял, что первая книга — это теория, которая поможет «поставить» мышление аналитика и «статистика», а вторая книга — это руки, которые научат мышление «прилаживать» с помощью пайтона к данным. Ну а дальше с помощью ИИ я формализовал окончательный план самообучения, который состоит из 4 блоков и короткой инструкции (не скажу, чтобы она мне нужна была), в какой последовательности действовать.

Инструкция: что и как делать, или 4 этапа самообучения методам стат.анализа данных

Распределение исключительно примерное, то есть пропорции могут изменяться, но я предполагаю, что не сильно. Получившийся план и пропорции — результат по сути двух действий курса «Как (не)читать книги»: анализ оглавления и формулирование запроса к каждому из разделов.

Я решил использовать первую книгу для «прошивки» статистического и исследовательского мышления в голову, а вторую как молоток, которым я статистическое мышление буду практически проверять (обстукивать).

Изучение описательной статистики

Это фундамент, который поможет мне «понимать» данные. Первая книга (гл. 1-4) объяснит мне про типы переменных, интервалы, пропорции, тенденции и вариативность. Я смогу лучше разобраться в том, что такое популяция и выборка и как их «подружить» друг с другом. А вторая книга — это прям инструмент. С помощью блокнота Marimo (во второй книге используют Jupyter, но это не принципиально) я буду учиться строить гистограммы и считать среднее, вариативность, пропорции, изучением которых я занимался в первой книге. Пойму наконец, что за библиотека такая pandas и так далее.

Цель этого этапа — увидеть, как формулы, о которых написали в первой книге, выглядят в виде кода пайтон.

Вероятность и распределения

В этом блоке я ожидаю много проблем. Первая — это математика, подтягиванием которой займусь в школе, когда «раздобуду» себе учителя, а вторая — методическая.

Дело в том, что в первой книге (гл. 5-6) представлена классическая теория стат. исследования, а во второй (гл. 3-6) — вычислительный подход. И мне нужно будет «преодолеть» методический разрыв, когда требуется «неподвижную» теорию «натянуть» на «мобильную» практику.

Это самый «интересный» блок с точки зрения «задачи педагога»: совместить мышление на основе данных (вторая книга) с идеальными условиями, о которых говорится в теоретическом материале из первой книги.

Проверка гипотез

Проверка гипотез — как раз то, чему я на самом деле хочу научиться. Обратите внимание, насколько основная часть идет «не сразу». Мне крайне важно подготовиться к ней. Хоть сейчас я и занимаюсь проверкой всяких гипотез в своих «местечковых» исследованиях, я уверен, что если подойти основательно, так, как я предлагаю сейчас, то результаты «проверок» будут более убедительными. Чтобы преодолеть этот этап, мне требуется прочесть в первой книге разделы, посвященные проверке гипотез (гл. 7-11), понять логику p-value (не могу сказать, что я сейчас ее не понимаю, но академический подход, скорее всего, откроет новый смысл), изучить теорию относительно ошибок в гипотезах. В социальных исследованиях (педагогика, психология) понимание ошибок критически важно, чтобы «случай» не принять за «подтвержденную» гипотезу.

В то время как первая книга снова учит теории, вторая — практике, и подходы, описанные во второй, радикально отличаются от подходов первой. Там, где первая через формулы учит параметрическим тестам, вторая учит симуляции, что, на мой взгляд, ГОРАЗДО интереснее. Это так называемый бутстрап. Тем не менее в научном дискурсе «привычен» параметрический подход.

Я многого ожидаю после освоения этой части, например, попробую написать парочку научных статей не на основе тестов, а на основе симуляции: «что будет, если…».

Эксперименты и взаимосвязи

К этому моменту я надеюсь, что смогу подружить теорию и практику: первая книга научит логике корреляций и предсказывать результаты (гл. 15-16), а вторая — линейной регрессии. Но тут включается линейная алгебра, и я опять ожидаю сложностей с математикой. Плюс я не знаю, как проводить дисперсионный анализ, который описан теоретически в первой книге (гл. 12-14), но нет описания, как это делать с помощью пайтона. Придется, скорее всего, искать для этого другую книгу.

Обработка естественного языка

Это отдельный блок, и этого я вообще не касался, просто потому что «некогда». Я буду учиться параллельно, методом проб и ошибок, изучая по мере необходимости всякие библиотеки, например pytorch, и пытаться что-то сделать. Но обработка естественного языка, хоть, по сути, интересна, не является первоочередной задачей.

П.С. Я уже начал работать по этому плану и могу сказать, что мне он нравится, наблюдаю за результатами.

2 лайка

Горячо одобряю. На мой взгляд — статистическое мышление как раз и будет отличать разумного человека в будущем.

2 лайка

Как формируете запросы к разделам и потом прорабатываете их? Как вообще работаете с учебником/научной книгой?

Насколько понимаю, принципы работы с книгой по самообразованию и с книгой научной различаются?

У Поварнина процесс работы с научной книгой заключался в разбиение главы по частям и проработки каждой из них через конспект, заметки и краткое изложение.

1 лайк

Да да, я именно так же размышлял :slight_smile:

В том числе подумал, что хочу восстановить математику, научиться снова считать.

Как мой друг, хороший математик сказал, не знаешь чт делать — иди считать, решать логические задачки и тд.

Да. Ровно так как Поварин и завещал!

Например сейчас закончил читать первую главу первой книги, собрал выделенные фрагменты в обсидиан, и начинаю потихоньку превращать в заметкич

Я этими заметками самому себе объясняю что прочитал и изучил.

Поделитесь такими заметками, пожалуйста :upside_down_face:

Очень интересно посмотреть, как вы объясняете самому себе. Такая заметка будет несколько различаться в визуальной и смысловой нагрузке от заметок, где вы рассуждаете. И тем более отличаться от вузовских конспектов.

Поварнин рассказывает о процессе конспектирование, но у вас то симбиоз вашего опыта)

Вот, буквально из последнего я себе поснял за феномен схлопывания модели, она на английском, но я думаю, что не будет особой проблемы разобраться.

The lack of human interaction (touch) leads to model collapse in LLMs and other AIs

  • I am uncertain who forwarded me this paper, but it intrigued me sufficiently to scrutinize it at length and even go as far as attempting to reproduce the results. First of all, with my recent passion for vibe coding in Python in Marimo, I replicated the calculation from another paper, and later this week I might train my models to see where it leads me.
    • The authors posit that a collapse of AI models is eventually inevitable, attributable to several factors (four to be precise). One of the primary reasons is the absence of human interaction with the model; the other three are more complex (we will discuss them in subsequent notes). As a scientist, I believe it is essential to establish a definition of model collapse:
      • In layman’s terms, it entails the erosion of long tails from the original distribution when the next generation’s model is trained on data derived from the current generation. In more technical terms, the definition might be articulated as follows:
      • q It is a degenerative process affecting generations of learned generative models in which the data they generate ends up contaminating the training set of the next generation.
  • Allow me to illustrate what it means to contaminate next-generation models. Imagine that we’ve trained the model of the present generation with 100% human-generated data. I can demonstrate this with notes from my vault, like [[The fifth iteration of the Second Brain course, another 12 weeks but with journalling, observation and possible VEE diagramming|this one]]. In this note, there is a fragment that states:
    • q The second week is dedicated to personal meaning; by this, I mean ==massaging the line==. So far there is some trouble with this technique; students didn’t grasp the concept and faced some issues. As Grapes used to say, this is the hardest part so far, and it truly is. In note-taking, it is the method that could teach note-takers to weave the personal into notes and return to them. I don’t know about the duration of this practice, but we can practice for a couple of weeks.
    • The collapse progresses through several stages:
      • The smoothing: During this stage, the model homogenizes the grammar and truncates the tail (rare references). For example, “Grapes” is replaced by “teacher,” and the idiosyncratic phrase “massaging the line” is corrected into “managing the line”: ==The second week is dedicated to personal meaning, which means managing the line. Students had some trouble with this technique and didn’t get the concept. As the teacher used to say, this is the hardest part so far. In note-taking, this method teaches note-takers to weave personal thoughts into notes and return to them. I don’t know the length of this practice, but we can practice for a couple of weeks.==
      • The loss of nuance: The specific connection in my original text between “weaving” and “returning” is diluted, and the model begins echoing itself. The phrase “managing the line” is discarded because it lacked semantic sense: ==The second week is dedicated to personal meaning and the line. Students had trouble with the technique and did not understand the concept. This is the hardest method so far. This method teaches note-takers to weave personal notes. We can practice this method for a couple of weeks to learn the practice.==
      • The echo chamber: Repetition is the hallmark of incipient collapse or of significant degradation of output. The vocabulary contracts, and the model struggles to produce coherent text: ==The second week is dedicated to personal meaning. The method is the hardest method so far. Students did not understand the technique of note-taking. This method teaches note-takers to weave notes. We can practice this method for a couple of weeks. We can practice the method for a week.==
      • Logical disintegration: At this stage, the model has become unmoored from the original context of personal meaning and starts hallucinating a tautology: ==The second week is the method for personal meaning. Note-taking is the method for note-taking. The students did not understand the notes. We can weave the notes into the notes. We can practice for a couple of weeks. We can practice for a couple of weeks. This is the hardest method.==
      • Collapse: The model generates incoherent babble, descending into a nonsensical recursive loop: ==The second week is the second week. The method is the method. Note-taking is the practice of note-taking for the personal meaning. We can practice for a week, for a day, for a month, for a year. The notes are the notes. Weaving the notes is the practice.==
  • Currently, with the proliferation of content generated on the Internet, when a new model is trained on data synthesized by other models, collapse becomes imminent. It remains imperceptible at present because minimal human intervention can postpone the collapse significantly, but it remains inevitable in the long run.
    • I assume that everyone requires a human touch, including robots and AI models; in the age of AI, given the scale at which we publish generated content, the genuine human touch is more invaluable than ever.
  • In the long term, the reliability and robustness of recursively reproducing data lead to the forfeiture of long tails from the original distribution. However, the absence of human touch is not the sole determinant; in the next note, we will cover the remaining three.
1 лайк

Попробую немного разобрать, как понял заметку, не видя источника)

  • Мотивация и введение.
  • Теоретическая часть.
    • Сама статья может быть большой, но вся информация красиво упаковалась в 3 абзаца.
    • Что важно, сухая информация подаётся в форме объяснения стороннему читателю, т.е. самому себе.
    • Не используется копирование источника.
  • Практическая часть.
    • Исследование, подтверждающее теорию.
    • Точно также исследование рассказывается с опором на теорию и стороннему читателю.
  • Выводы и размышления.
    • Рассуждения о итогах исследования и о том, как новые знания могут пригодиться в будущем.

В итоге заметка по научной книге/статье ничем не отличается от заметки по саморазвитию)


Всегда ли заметка по научной книге имеет практическую часть? Или может быть просто блок теории и рассуждений?

Исходная статья была большая? Несколько удивило, что столь непростая тема была сжата до 3-х абзацев теории и практики.

Для чего “q” вначале некоторых абзацев? Это синтаксис для оформления цитаты в списке?

Я стараюсь во всех своих заметках оставлять себе след что могу сделать. Но так получается не всегда.

В итоге заметка по научной книге/статье ничем не отличается от заметки по саморазвитию)

Немного не понял про заметку по саморазвитию? Если ты имеешь ввиду, что я пишу заметку самому себе, как если бы разговаривал с кем-то на кухне, то, да так оно и есть.

Мои заметки это записи мне самому, только будущему ))

Ага, про это. Не так сформулировал)


Если в заметке по научным темам, объяснять концепции самому себе, то это не будет прямым конспектированием источника?
В процессе же добавляется своё понимание, свои дополнения и рассуждения, что повышает понимание исходной информации и перерабатывает в знание.

До текущего диалога не понимал, как в заметке по тому же мат анализу или программированию добавить себя. Оказалось, что нужно просто объяснить себе изученный материал и порассуждать о полезности и способе применения.

Интересно вышло. Спасибо :heart:

Я точно также делаю сейчас по статистике. Записываю объяснения самому с себе. Все что связано с кодом оформляю как исследовательский отчет.

Пример 1

Привер 2

1 лайк