Есть тут статистики?

копировать

Для чего вообще нужен R - ? Я прошла несколько курсов по статистике, но они не идут в логическом порядке, они никак друг с другом не связаны. Я обязана пройти несколько курсов в аспирантуре, но я не обязана применять статистику в диссертации. Но мне хочется как раз применить. Темы нет, научного руководителя нет. Короче говоря, полный набор проблем. Поэтому приходится разбираться самой. Самое забавное, что сама статистика мне очень нравится, но преподаватели слишком тяжелые люди - иммигранты из разных стран, у которых масса проблем, они наконец отрываются на нас и ставят низкие оценки. Никто не хочет ничего нормально объяснять. Прочитал лекцию из середины учебника, двойки поставил и сбежал.

Делали мы практически разные виды дисперсионного анализа, разные виды регрессии. Логистическая регрессия. Короче говоря, при отсутствии серьезной базы и многих элементарных понятий, изучала следующие уровни.

Например, один препод читает курс по факторному анализу с R. Насколько я понимаю, можно и без R изучать факторный анализ? Если я изучу факторный анализ без R и без этого профессора, а R изучу отдельно?

Можно ли изучить R каким-то образом отдельно сам по себе в отрыве от всей остальной статистики?

С компьютерами у меня все слабенько, образование гуманитарное. Если я возьму внутренние данные какого-нибудь бизнеса, например, проанализирую, откуда к ним приходят клиенты, какие там тенденции... Мне чем поможет R - ? Что именно в нем мне изучать для такой цели?

Или у R есть еще какая-то ценность, чтобы я это изучила и где-то еще применила?

Я могла бы за лето что-то изучить. Есть что-то в статистике такое, чтобы взять какой-нибудь новомодный метод и его отдельно освоить и применить в анализе данных реального бизнеса?

Что-то такое, что бы смотрелось красиво и было реально быстро изучить.

У нас каждый препод статистики специализируется на чем-то своем. Один говорит, что без R никуда, другой говорит, что это бред. Домашку получаем, несем репетиторам. В SPSS я уже изучила массу кнопок.

Например, я возьму всю информацию о клиентах, которые подписались на услуги. Поставлю там какие-то коды и проанализирую, насколько долго удалось бизнесу удержать разных клиентов. В чем преимущество R по сравнению с SPSS?

Если мне повезет, то какие-нибудь графики регрессий построю. Может, там даже обнаружится что-то интересное. Или нет.

А что мне даст R с таким проектом? Что я там построю? Что можно получить?

Есть ли какие-то новомодные методы, чтобы быстренько изучить и продемонстрировать с такими данными?

Бизнес подписывает другие бизнесы на своеобразный вид услуг, они быстро сбегают, долго не держатся. Изучить таким образом, какие характеристики у хозяев этих малых бизнесов, кто удержался долго... (???)

С такой целью, чтобы проанализировать как можно глубже этих клиентов, какие бы статистические методы мне бы подошли, чтобы это все еще выглядело красиво?

копировать

Если вкратце, то Р лучше, хоть и медленнее. Границы применения зависят исключительно от исл. вопросов и гипотез. С ним можно и сетевой анализ делать, и текст майнинг, и качественные данные обрабатывать, и всякие метаанализы, и многое другое.
Но у вас вообще непонятно из потока стзнания, в чем задача и зачем вам р.

копировать

Задача - найти тему для диссертации. В нашем болоте профессора поставят свою фамилию научного руководителя только рядом с готовой интересной темой. Сами они мне тему не дадут, это уже понятно. Они сами ничего придумать не могут.

Чтобы создать себе тему самой, нужно провести анализ каких-то текстов и в них обнаружить закономерности, которые там уже есть. Будем надеятся, что есть.

Например. В бизнесах нанимают студентов на практику из базы данных студентов. Из 200 резюме в базе данных хозяева бизнесов выбрали 5 студентов, изучавших маркетинг. Проанализировать тексты резюме этих 5 студентов. Двух они выгнали, а трое там продержались 3 месяца на бесплатной практике. Что такого было в резюме этих 3 и 5 студентов, чего не было в резюме 195 студентов? Почему африканский парикмахер, который плетет косички, итальянский пекарь и палестинский сантехник, не отягощенные образованием, для развития своих вебсайтов выбрали из 200 резюме студентов маркетинга именно этих троих? Они быстренько выбрали 5, потом 2 выгнали с матюками. Что им понравилось? Потом другие хозяева малых бизнесов еще кого-то выбрали.

Почему какие-то хозяева бизнесов продержались в такой программе 6 месяцев, а другие сбежали через 2 недели и слышать не хотят про студентов?

Должны быть зависимости, которые можно обнаружить между студентами и хозяевами бизнесов.

Есть тексты описания бизнесов, есть тексты описания студентов. Проанализировать всеми методами тексты с одной стороны и тексты с другой стороны. А там, глядишь, появятся и гипотезы.

Это не продажи, чтобы были готовые цифры. Там нет готовых цифр. Описанные в абзаце студенты продержались 3 месяца на неоплачиваемой практике у описанных в абзацах хозяев пекарни, выпекающей пахлаву. Например.

Или я возьму какой-нибудь констракт, например, что-то неэтичное в маркетинге. И проанализировать 100 заметок в новостях о таком явлении и выявить, например, (при помощи Correlated Topic Model - ?), что за темы были в этих новостях, т.е. было, например, в 2005 году 6 тем про неэтичное явление, а в 2019 году стало 15 тем или 10 - тенденция роста. Или еще что-то - ? Например, неэтичное явление в среде маркетологов возрастает или приобретает новые формы. А мы борцы за высокие стандарты в этике маркетологов. Мы сейчас обнаружим закономерности и напишем рекомендации, как обучать студентов-маркетологов с высокими этическими принципами. Пока такие мысли.

Мне никто не даст готовые гипотезы и тему исследования. Мы нужны профессорам, чтобы мы поступили в аспирантуру. Под это деньги уже освоены. Теперь они будут нас топить, как слепых котят. Они нам расскажут, что мы не знаем каких-нибудь формул с логарифмами, которым они нас не учили. Они нам рассказывают на лекциях про теории и графики с таблицами в SPSS. Мы это все анализируем, а потом нам в экзамене дают совсем другие формулы. А сами они совсем другими темами занимаются. А нас толкают в другом направлении, в тех болотах мы утонем и не выплывем. Их интересы явно противоречат нашим интересам. Они помогать не будут и темы нам не дадут. Мне нужно вылезать из болота другим путем.

Нужно найти тему и гипотезы самостоятельно. И найти их нужно, проанализировав много текстов. В этих текстах уже есть какие-то закономерности.

А какие темы лекций мне найти и послушать о том, куда именно вставлять тексты для анализа? А то в этих бесплатных лекциях начинают все на свете рассказывать про R. Насколько я понимаю, есть какие-то готовые скрипты команд, которые даются программе, потом в какое-то окошко нужно загрузить тексты. Тексты нужно очистить от формата, артиклей, предлогов и всего остального вручную, а можно, наверное, программой?

Какое программное обеспечение очищает тексты?

Как это называется? Например, я в новостях возьму 100 новостей про какое-то явление, у меня будет 100 текстов. Мне их лучше вставить в коробочки в Екселе или в файлы txt?

Готовую гипотезу и иссл. вопрос мне никто не даст, мне их нужно самой обнаружить. Их можно обнаружить в текстах.

Насколько я понимаю, есть Rstudio, Rapid Miner, Knime, Orange. Что мне скачать и куда потом вставлять эти сто текстов, которые я соберу? И где взять скрипты для R? Как это вообще называется? Где они берут эти коды для анализа текстов?

Другие гуманитарии находят соавторов из своей страны и выплывают так. Например, был вчера учитель музыки с тройкой по статистике, а сегодня он уже уже соавтор какого-нибудь программиста из их общего Ливана. И у него уже и публикации и эксперименты. Цветут и пахнут. Или сбегают в качественные ислледования. Мне придется самостоятельно выходить из этого болота. С другой стороны, может, пора наконец организовать в этом болоте науку?

Но сначала мне нужны скрипты в R и в какие окошки в каком интерфейсе вставлять тексты. А потом я начну все анализировать.

копировать

Это в какой же такой стране и в какой науке такое дно?
Вам не про статистику надо думать и не про учителей музыки из Ливана, а про методологию науки и аппарат диссертации. Тему за вас никто не придумает, надо самостоятельно определить интересную тему, понять, что там недоисследовано, какую научную новизну можете предложить и как это засабмитить в бади ов ноуледж. Для того, чтобы найти интересненькое, надо покопаться в литературе и понять, что там уже есть. Systematic literature review вам в помощь.Можно обратиться к своему опыту, можно расспросить экспертов в вашей области и посмотреть, как это ложится на литературу. Но нормальный текст про исследованное в вашей области вы не сможете сделать, если не разберетесь с аппаратом диссера, не поймете, через какую теоретическую и концептуальную рамку смотрите на феномен, и не определитесь, от феноменологического ли подхода вы вообще идете (я условно).
Анализом текстов (к примеру) занимаются в рамках метода content analysis. Ищете соответствующий хэндбук, читаете, вникаете. Ищете в вашей области статьи нормальные, смотрите, как там используется этот метод. Не забываете про принципы научности, верифицируемости, триангуляцию- один метод на дис исследование в нормальных вузах не тянет.
Возвращаясь к контент анализу- R позволяет делать качественный анализ, в том числе контент анализ. Скачиваете и устанавливаете RStudio и вперед. Остальные всякие рапидмайнеры вам не нужны. Но пока вы не разберетесь с тем, что вы именно делаете и зачем, вы не сможете провести анализ, это касается любого метода исследования и любой научной работы.

копировать

Спасибо. Начну с RStudio и посмотрю, что там происходит. Может быть, найду какой-то феномен... Да, мне нужен феномен, где мне его еще найти. Я всю жизнь преподавала свой предмет, а теперь нужно феномен в бизнесе найти. Я не имею к бизнесу отношения.

Я вот и смотрю, что в статье описан Correlated Topic Model для определения тем статей. Но я же в этом ничего не понимаю. У нас никто из аспирантов не понимает, что он делает и зачем. Либо людям нужна виза и получение ПМЖ на семью, и аспирантура - единственный способ сюда приехать, либо человек много лет преподает что-то совсем другое, а часов все меньше. Вот и идут люди в аспирантуру по бизнесу в своем городе, чтобы потом где-то получить ставку, а не временные контракты в пяти учебных заведениях по своему предмету. Те контракты в один прекрасный день могут закончиться.

Можно называть их науку дном, но они отлично умудряются выступить на ежегодной университетской конференции с докладом, что он делал в 1983 году, когда им еще научный руководитель руководил. А в классе он скажет прямым текстом: "Мне до пенсии несколько лет, и я считаю каждый день, диссертациями хотят руководить те, кто хочет повышение, бай бай".

Зарплату teaching assistant платят, доступ в библиотеку дали. А больше они ничем помочь не могут и не хотят. Могут плохих оценок наставить и отправить музыкантов и учителей персидской литературы изучать логарифмы в следующем семестре. Это они могут...

Самые активные профессора советуют изучить психологию и какой-нибудь психологический эксперимент вставить в контекст бизнеса. Я уже два семестра изучала literature review по психологии. Да, я понимаю теперь, о чем написано в статьях. в которых несколько групп, t-test, ANOVA и так далее. Но я не могу придумать никакой эксперимент с потолка. Я просто вышла на уровень понимания каких-то статей, о чем в них написано. А в следующих статьях там уже factor analysis, и я уже не понимаю, что они делали. Но там дизайн сочинял кто-то, кто понимает в психологии. Я не сочиню никакой разумный дизайн психологического эксперимента в бизнесе так вот с потолка.

Да, я пытаюсь исходить из феномена: я не потяну найти в их теориях какой-то пробел и его заполнить. У меня просто нет времени это читать. Я по часам преподаю больше, чем на ставку, но в разных местах. Страна-то дорогая. Мне нужно набегать по разным работам. А потом на имейлы студентов ответить, которые недовольны оценкой. В моем расписании поиск феномена стоит после всех оплачиваемых часов. После того, как я каждому прогульщику написала ласковое письмо, что нужно на мои лекции ходить и домашнее задание сдать, а его координатору - длинные извинения, почему у него ноль: потому что я его ни разу не видела. Как только придет - сразу подпишу зачет, только запихайте его в класс.

Надеюсь за лето что-то прочитать и найти, в чем-то разобраться. Предложить научную новизну в бизнесе сложно, если не имеешь к нему отношения. Таких людей я видела много, у кого получилось, но у них были научные руководители, которые говорили им, что делать.

копировать

Канада?

копировать

В Канаде Р в университетах изучают, довольно распространен.

копировать

Сказать-то что хотели этим?

копировать

Ответила на вопрос выше, что мол вряд ли это Канада.

копировать

У автора Р изучают в аспе, так что может вполне быть и Канада.

копировать

Ставлю на Германию какую-нибудь. А может даже Австралию.

копировать

Не найдете вы феномен в бизнесе. Для этого нужно понимать бизнес и нужно иметь доступ к данным, а вы даже представления не имеете как эти данные выглядят. Вам бы лучше демографию или биохимию какую-нибудь.
Знания статистики у вас тоже слабые. Ну какая диссертация с таким бэкграундом?

копировать

У меня полно знакомых, которые без всякого бэкграунда в бизнесе сделали PhD по бизнесу. Другое дело, что там каждый случай уникален. Многие, конечно, делают без статистики: можно делать качественные исследования, а по статистике просто сдать один обязательный курс, его поставят в транскрипт, и на этом статистика закончится. Кстати, многие статьи в престижных журналах основаны на статистике не сложнее ANOVA, но там осмысленные дизайны.

Ну какая биохимия? У меня PhD in Management. Безусловно, можно спрыгнуть с моего раздела на другой, хоть на стратегии, хоть на HR. Ой, не видели вы еще реальных диссертаций. Люди берут интервью... скажем так...из Тюменской области да из таких бизнесов, в которые пустили и заполнили им анкеты. Вы же понимаете, что никто не хочет никуда пускать и ничего рассказывать. Так что согласились бизнесы примерно уровня пошива юбок, платьев и школьной формы. Автор этой диссертации уже кафедрой заведует в англоязычной стране. Так что примеры есть такие, что вы бы очень удивились.

Насчет данных... Есть бизнесы на примете, в которые меня пустят. Другое дело, что пока что то, что хочет кандидат в научные руководители, совсем из другой оперы, чем те бизнесы... И будет ли он руководителем? Пока что он на имейлы не отвечает.

Слабая статистика - понятие относительное. Вопрос в том, какие зависимости я хочу построить. Сядет кто-нибудь с PhD по статистике и построит мне эти все регрессии. Полно публикаций, в которых даже не регрессии, а проще. Я эти все лекции понимаю про регрессии. У меня нет проблем с пониманием лекций.

Я бы даже сказала, что те, кто закончил финансы и изучал статистику в прошлом, там больше меня не блещут.

Мне надо изучить тексты, дело не в цифре 5, я не идиотка, я в курсе, что в бизнесе берутся другие цифры. Хотя в educational psychology они отлично привлекают для эксперимента даже 6-8 человек. Да, для бизнеса речь, безусловно, идет о других цифрах. ОК, допустим, имеем 1000 резюме студентов, 500 хозяев бизнеса. Дело не в 5 и не в 3.

Я недостаточно знаю методов, чтобы, например, вызвать того же самого репетитора и сказать ему, что мне нужно. Одно дело, если я знаю, что я хочу, чтобы он мне показал еще раз пис-уайз регрешен, а другое дело, если я не слышала о таком.

Пошла я на конференцию. Стоят ребята с плакатом, и научный руководитель у них есть. Посмотрела я на их графики и поинтересовалась, почему они пис-уайз не делали с их графиком. Они сказали, что они даже не слышали о таком. Я-то слышала. И ничего, бодро уже что-то пишут.

Я отсидела на нескольких курсах адвансд статистики на разных факультетах. И как бы я там все понимала, что рассказывали.

Меня интересуют советы, какие еще статистические методы есть для текстов. Я послушаю тогда видео в Интернете, потом приглашу репетитора, который мне покажет кнопки и разжует таблицы.

Доступ к данным у нас некоторые люди берут из министерств. Они заказывают доступ к публичной информации, которая уже есть в министерствах. Это паблик информейшен. Это тоже вариант. Меня он не очень привлекает, потому что тянуть кота за хвост там будут долго, потом дадут какие-то данные, с которыми непонятно что делать. Но в принципе такой вариант тоже существует. Люди, которые хотят идти таким путем, богаче меня. Они просто будут нанимать пачками тех PhD по статистике, а дама просто озвучит результаты с трибуны. Для того, чтобы озвучить, достаточно в принципе понимать, что это такое. Я лекции понимаю.

Вот чего я не могу, так это я не могу изучить на лекции формулы, а потом сделать еще на два шага больше, если это требуется в экзамене. Тут я не математик. Я не могу объяснить эти формулы глубже, чем описано в учебнике. Но там налаженные традиции проходить такие же уровни статистики на факультетах, где вместо экзамена сдача домашнего задания.

Те, кто статистику совсем не понимает, идут на качественные исследования, будут какие-нибудь интервью брать. Но меня это не привлекает. Я хочу статистику.

Начну, пожалуй, смотреть видео по RStudio. А что еще есть, что можно быстро освоить, что не требует бэкграунда на мехмате? Я прошла курс по логистической регрессии, по обычной регрессии, блоки я кликала, степ-вайз регрешен кликала, таблицы все проанализировала, ANOVA one-way, two-way, between, within - все эти стандартные задания я выполнила.

Для эксперимента в лаборатории этого достаточно, но вот придумать этот искусственный эксперимент я по заданной теме как раз и не могу. У кого нет доступа к реальным данным, они не печалятся: они сажают 100 студентов в лабораторию, студенты кликают анкеты, ANOVA и вперед.

Но пока что я с этим чудесным планом застряла. Поэтому думаю, что нужно усложнить статистику, если надо, засунуть нос в какой-то бизнес, там найти феномен.

У меня знакомая получила теньер по статьям из России, потому что печатать в американских журналах ей было нечего. Взяла она кусок из диссертации, быстренько опубликовала лишь бы где. Сначала ей отказали. Накатала в профсоюз - утвердили. Сидит теперь и трудится. Обучает толпы китайских студентов. Когда нет данных из бизнеса, они потом берут методику преподавания бизнеса студентам и об этом пишут.

Я не имею представления, как выглядят данные... (?) Во-первых, у меня есть родственники с доступом к разным данным в малых бизнесах, во-вторых, можно получить данные из министерств, которые попадают под паблик информейшен, в-третьих, я собралась анализировать не финансы, а маркетинг. А там все как всегда: какие зависимости между тем, что клиент купил, клиент задержался надолго... и чем-то еще. По идее, регрессии построить. Но вот между чем и чем их строить... Тут как раз текстовый анализ и может показать...

Понимать бизнес... У нас профессора закончили сами политологию, историю и далее по списку. Они сами никогда ни в каких бизнесах не бывали. Они сочиняют теории. Теории основаны на экспериментах в лаборатории или интервью. Пошли, например, и набрали интервью у иммигрантов, спросили у них, почему их на работу не берут, сколько интервью они посетили. Но меня такие темы не привлекают. А некоторые делают так PhD. Еще и начальниками становятся.

Мне хочется осмысленную тему и красивую статистику.

Кстати, подошла я к одному преподавателю по статистике и что-то спросила про трансформации (я имею в виду, когда, например, вместо переменной - логарифм переменной), так получила ответ: "Я без этих трансформаций прожил целую жизнь, вот тут вам преподаю статистику, и мне трансформации сто лет не нужны, в моих публикациях трансформаций нет". А в другом курсе нас этими трансформациями мордовали-мордовали...

Я думаю, что в текстах я что-то найду, надо разобраться в инструментах. Зацеплюсь за то, что найду.

копировать

Дело то не в R, а в том что вы очень плохо представляете как статистика применяется к проблемам бизнеса.
В какой вы стране то?

копировать

Автор плохо представляет: 1) как устроен бизнес 2) зачем нужна статистика в научном исследовании 3) как делается научное исследование 4) как анализировать данные.

копировать

Но собралась докторскую написать, ага. Доктор наук без знаний.

копировать

Это phd, кандидатская в странах без хабилитации.

копировать

Я знаю что это. Это однако называется доктор философии, то есть "докторская".

копировать

В случае автора абсолютно все равно, как это называется, так как ее понимания и на бакалавриат не хватает)

копировать

Это точно.

копировать

Даже до данных и всякой статистике- попробуйте определить обьект и предмет (концептуальная рамка, переменные в западной науке), сформулировать гипотезы исследования, исследовательские вопросы. Доступ к данным, к полю- дело наживное. В конце концов можно сделать качественное исследование.

копировать

Автор, какая у вас область? Вы про размер выборки почитайте и подумайте, почему вам 5 резюме для анализа не подойдет.

копировать

Ой, ну дело не в 5, пусть будет 500. Я для удобства сказала 5. У educational psychologists можно и 5. В бизнесе да, нельзя. Я в курсе.

копировать

Вам надо пройти курс статистики. Слов нахватались, понимания почему делается так а не иначе нет совсем.

копировать

Ну, наверное, я какие-то курсы статистики прошла, раз употребляю слова. Без понимания я бы их вряд ли употребляла бы. Что Вы понимаете под курсом статистики? Я прошла несколько разных курсов. Да, скажем так, прослушала с разным успехом пять курсов. Где-то с оценкой, где-то просто слушала лекции...

Гипотезы с потолка не падают. Чтобы ставить вопросы, нужно представлять себе, что именно может сделать статистика.


Буду думать.

Я достаточно видела в своей жизни выпускниц специальностей "Психология", "Журналистика" или "Английский язык", которые ни статистики в глаза не видели, ни бизнеса, а защитились, получили свои рабочие места и зарплаты.

Прошла я несколько курсов у разных преподов на разных факультетах. Как бы я употребляла эти слова без понимания? Я эти все лекции отсидела, все домашки прокликала. Каждую кнопку на компьютере нажала. Все графики изучила, таблицы проанализировала.

Бизнесы... Бизнесы разные. Один пишет про расизм при приеме на работу на госслужбу, другой пишет про то, как баскетболисты ответили на вопросы в анкете про тренера. И все это идет на PhD по бизнесу.

Все-таки майнинг - хорошая мысль.

Мой репетитор не знает текст майнинг. Он знает RStudio хорошо, но не тексты...

Ладно. Время покажет.

Если есть какие-то конструктивные советы, то пишите, не стесняйтесь.

Со статистикой можно нанимать репетиторов и консультантов. И думать, что они знают, и как мне это использовать. А с качественными исследованиями я влезу в новое болото.

Там точно так же заставят много пахать, но непонятно что потом с этим делать.

Сколько нужно времени хорошему спецу по R и RStudio, чтобы он изучил текст майнинг?

Имеет ли смысл просто сажать его рядом с собой с инструкцией и платить за его время? Чтобы репетитор читал, и я рядом с ним то же самое читала. И нажимала те же кнопки.

Сколько бы часов на это ушло?

?????????????

копировать

Вам уже несколько человек объяснили провальность затеи про использование конкретного софта/языка, потому что у вас нет исследования, нет гипотезы, нет понимания того, что вы должны сделать. Вы можете нажимать кнопки за репетитором (и о каких кнопках может идти речь в скриптовом языке??? Вы точно проходили курсы по R??), тут будет абсолютно без разницы, на 10 часов вы его наймете или на 100, потому что, повторюсь, вы не понимаете, зачем вам метод и что вы хотите найти. Если бы понимали методологию исследования, свой объект и предмет, назначение статистических методов, минимальные возможности R, то не задавались бы такими вопросами, которыми задаетесь.

копировать

Я не проходила курсы по R. Я проходила стандартные курсы, в которых везде SPSS.

Кстати, и в SPSS есть функция синтакс, в которую загоняют готовый скрипт. И те, кто совсем не программисты, выполняют эту функцию. Там такая зеленая стрелочка сверху. Копи-пастишь и нажимаешь зеленую стрелку. В синтаксе меняешь названия переменных в образце.

Нам для этой функции давали образец на лекции, и мы дружно подставляли другие переменные.

Мне интересно:

1. Про интересные статистические методы, которые можно быстро выучить в моей ситуации. Быстро. Бегом с репетитором. Репетиторы есть, но им нужно сказать, что я хочу.

2. Сколько бы часов ушло на то, чтобы мой спец по RStudio вместе со мной изучал инструкцию по TM и мне показывал.

Я понимаю, что вы живете в своих реалиях. А мы живем в других.

Поэтому у нас люди не знают слова "невозможно". Они думают, КАК разыграть эту комбинацию.

Да, я в курсе, что R - это скрипт. Но насколько я понимаю, для каждого действия УЖЕ написан скрипт. Его можно скопировать в отдельный файл и применять потом самостоятельно для анализа текстов, а не писать с нуля.

Сколько там готовых скриптов надо знать в TM -?

Насколько я понимаю из инструкций, там анализ вордовских файлов, PDF, TwitteR - мне этого пока хватит. Все остальное можно скопировать в Ворд.

Зачем мне знать весь R, если я хочу только анализировать тексты?

Что я хочу найти... Например, можно взять какой-то термин, выбрать в Гугле 500 новостей с этим термином в новостях о бизнесе. Потом при помощи программы определить, что 500 новостей делятся на 17 тем. Потом посмотреть за последние 20 лет, какие темы росли, а какие уменьшались. И построить графики о тенденциях. Сравнить разные годы.

Это если брать открытые данные из бизнес-новостей. Некоторые берут прямо научные журналы и анализируют темы оттуда. Например, в научном журнале за последние 30 лет такие-то темы менялись так и так. Анализируют саммари и тексты полностью.

Есть такие статьи в журналах. Потом буду дальше думать.

Но было бы неплохо стать на кафедре экспертом по TM в R для начала.

Чтобы получить данные о бизнесе, нужно по знакомству куда-то залезть в бизнес. Ну, я над этим думаю. Что-нибудь подвернется.

Я пока не готова там анализировать. Чтобы дергать хозяев бизнесов, нужно знать, что я ищу. Полно вон малограмотных бизнесменов. Я для них уже опупенно грамотная. Бывают люди, которые колотят миллионы, а сами школу не закончили. Нужно же им что-то наобещать и иметь какой-то план...

Да, наверное, TM мне там не подойдет для анализа внутренних данных бизнеса, но для резюме все равно интересный момент.

Мне очень нравится мысль изучить TM в RStudio с репетитором. Особенно в этом болоте с пенсионерами. Пока это болото еще не захватили китайцы. Можно успеть стать там экпертом по технологиям.

Надо это все делать быстро. Плохо, что нет научной школы, но это шанс создать свою. Это уникальное болото. В болотах свои правила игры... Некоторые там процветают.

копировать

Нет, готовый скрипт без знания функций и переменных вы не сможете применить. Все равно надо понимать, как обрабатываются файлы с исходными данными, какие кодировки использовать, какие значения в функции подставлять и т д. Вам как минимум надо понимать (1) принципы R (2) исследовательский метод (3) свою гипотезу. Если первое еще можно делегировать, то второе и третье нет, а без понимания этих пунктов вы не сможете сформулировать залачу по первому пункту. Пока вы даже ревью работ по своей теме не сделали, ну и зачем говорить про статистику да про текст майнинг?

копировать

Оставим в покое гипотезу. Она может быть потом о чем угодно другом.

Сколько времени нужно, чтобы репетитор с 20-летним стажем преподавания и 2 учеными степенями по статистике из своей страны и нынешней, т.е. он хорошо умеет рассказать, изложил бы мне принципы R - ? ОК, я понимаю, до того, как приступить к TM, он должен рассказать мне про R.

И сколько ему дать часов? На вступление в тему?

В принципе, я согласна, что, если человек не отличает настоящее от прошедшего, ему рано объяснять страдательный залог, хотя в реале так преподают: студенты попадают в высокие уровни, когда у них нет базы. И репетиторы заколачивают все, что угодно. Стилистику преподают тем, кто грамматику не знает.

В одной группе сидят носители языка, не знающие, что такое прилагательное, и неносители, которые знают все на свете, но их все равно заставят пройти курс. У нас уровни в одной группе от и до.

Вы говорите все правильно об идеальном мире. У нас оно бывает по-разному. У нас бывают люди, для которых английский родной, но они не понимают, что такое артикль. Когда их просят подчеркнуть в предложении прилагательные, они подчеркивают артикли. Теоретически их можно обучить быстро высоким материям. А практически... будешь учить одних, другие будут жаловаться так, что мало не покажется.

ОК, принципы R надо изучить. И сколько часов?

Мне не нужно делать никакое ревью. Я для примера дала задачу. Ревью я буду делать тогда, когда я что-нибудь найду, анализируя тексты. Может, я найду что-то про мобильные телефоны. А может я найду что-то про лекарства. Я не могу про все на свете по 3 месяца делать ревью.

Может, я что-то найду в текстах про коллекционеров. :)

Как обрабатываются файлы... Это разумная мысль. И сколько на это нужно часов, если препод - супер, а ученик с очень высоким уровнем обучаемости?

Что-то я сомневаюсь, что на это нужно 100 часов.

Т.е. да, нужно введение в тему. И за какое время он должен это изложить?

Я не вижу смысла больше делать ревью про все подряд. Изучить сам метод - для этого ревью не нужно. Изучается сам метод. А к чему его потом прицепить... Может и ни к чему, но буду знать метод. Проанализирую тексты про рекламу 50-летней давности и сдам статью в журнал про историю рекламы. Куда-нибудь пристрою эти знания. Даже если они не решат мою нынешнюю задачу, пригодятся для чего-то еще. Буду числиться на кафедре экспертом по TM.

Вы исходите из фундаментальных знаний и консервативного порядка. У нас по верхам скачут быстро. Кто не успел, тот опоздал.

Регрессию можно изучать бесконечно. А можно тяп-ляп, логистическая регрессия и публикация.

Например, эксперимент. Показываем респондентам шампунь. Готов купить - 1, не готов купить - 2. Логистическая регрессия. Как на выборах. Голосую или не голосую. И люди клепают статью.

У меня есть лето для изучения нового. Потом начнется свистопляска и трудоголизм. Потом я ничего учить сверх программы и работы не смогу.

копировать

Ржу: пропикать кнопки в тестах и посмотреть лекции не эквивалентно пониманию. Автор смешная.

копировать

Не смейтесь! Это будущий пиэйчдист!

копировать

"пецу по R и RStudio,"
Это одно и то же.
Вам нужно пару лет, начать с нуля. У вас совсем нет знаний.

копировать

Не совсем, RStudio это IDE, R это язык, но что автор имеет в виду- загадко. Там спецы гоняют R shiny? Или теоретики типа автора, которые посмотрели чей-то скринкаст и отныне мнят себя спецами по степвайз?
Отдельно доставили попытки автора порассуждать про регрессии, факторный анализ и логарифмы вкупе с пассажами про злых профессоров, которые не дают автору тему.

копировать

Да да, но автор говорит про знание того и другого, как будто это два разных подхода/языка.
Погодите, автор нам еще про текст майнинг расскажет.

копировать

Про текст майнинг прям трепещу!

копировать

Там много курсов автору надо пройти, не только по статистике.

копировать

Ну я на R пишу, последних лет пять. Как для чего - модели делать. Там много различных удобных функций для построения моделей и класетирнга, текст анализа. ну и он бесплатный, чем и хорош. SPSS, как и SAS, стоит денег. А R это что-то вроде экселя - загружаете туда данные, которые где-то еще хранятся, и моделируете.

копировать

Для меня цена пока не актуальна: у нас, аспирантов, эти все программы бесплатно. Нам что SPSS загружать, что R... - кнопку на вебсайте университета нажать. Я в экселе работать не умею, я изучала сразу те курсы, в которых сразу начинается SPSS.

То есть в R можно делать то же самое, все те же самые ANOVA, регрессии? Нам R только на одной лекции показывали, что-то было про матрицы. А что там интересного кроме бесплатности? Что-то есть такое, чего нет в SPSS?

копировать

Я вам объяснила чем R хорош - он бесплатен. Лицензия на САС стоит больше 100 тыс доллвров в год для компаний. На R нисколько не стоит.
Компании предпочитают то, что не стоит никаких денег.
Да, в R можно делать все то же самое и даже больше.
Текст Майнинг в SPSS нет, насколько я помню. Вообще SPSS мало популярен, поэтому я им давно не пользовалась, Но в крупных компаниях его очень редко используют.
Куда вы потом с этим эспиэсэсом пойдете? Ради вас его не установят.

копировать

Понятно... Я с точки зрения бизнеса не подумала. У нас в университетах и на госслужбе все программы есть. Да и у бизнесов сплошные контракты с государством.

копировать

А при чем здесь контракты с государством? Выгоднее r использовать, поэтому даже самые денежные компании на него переходят.

копировать

Смотря что министерство внесет в контракт. Если министерство им туда внесет SPSS, так министерство за это и платит. Или предоставляет им доступ для этого проекта, пароли какие-то.

Но я понятия не имею, что они в нашей округе чаще используют, R или SPSS. В объявлениях о работе пишут оба.

Я много лет назад работала в таких колл-центрах по 100-120 человек в зале, звонила. Государство заказывает много исследований. Там аспирантов-социологов-маркетологов много было. Посидишь так несколько месяцев колл-центре, глядишь, и свою диссертацию придумаешь, как дальше писать.

Есть что-то такое новомодное в статистике, чтобы можно было быстро изучить?

Я смотрю, что бывшие психологи сооружают эксперименты, у них наши же студенты в лаборатории ответили на вопросы, они там изобразили ANOVA. Они ничего больше не знают, а психологический эксперимент знают. Мне надо что-то другое искать.

Мне графики регрессий понравились. Думаю, взять в реальном бизнесе реальные цифры, которые каждый день меняются... Но какие еще есть методы... Трансформации переменных мне понравились. Piecewise regression... Надо что-то еще изучить. Но вот что... ???

Я целый семестр слушала про регрессию, мне все было понятно. Что бы такое еще изучить...?

копировать

Кластеринг надо уметь делать. Текст майнинг нужен. И главное, понимать для чего все это нужно и к чему применяется.

копировать

Спасибо

копировать

Зря так иронизируете. Если такие все умные, так посоветуйте другие быстрые модные методы.

Я не будущий пиэйчдист. У меня уже одна ученая степень есть. Правда, как бы по моей специальности... В целом, по моей. Но тема диссертации была по языку, которого не знал ни мой научный руководитель, ни первый рецензент. Правда, у шефа того диссера докторская была из МГУ. Но языка, по которому я писала, шеф не знал. И кормила меня та ученая степень много лет.

К сожалению, пришло время делать выбор... И не пошла бы я в ту нынешнюю аспирантуру... и не хотела я туда... Но раз уж так получилось, надо построить стратегию и найти там свой путь.

У нас вообще в списке обязательных предметов по программе только ОДИН курс статистики. ОДИН. А я уже 5 прошла. Люди проходят один курс. На таких факультетах, где нет тестов, а одни домашки. Покупают домашки и идут дальше.

А уже кто как выплывает... Ну, каждый диссер уникален. Обычно все эти аспиранты уже с учеными степенями из своих стран. Например, по персидской литературе. Или американской драме из Азии.

В мире много чудес. Теперь они спецы по менеджменту. Бац. И спецы.

ОК, какие методы, которые смотрятся красиво, можно быстро изучить с репетитором, учитывая, что все эти стандартные ANOVA и т.д. я прошла?

копировать

Глубинное обучение (deep learning) посмотрите.

копировать

Эта та же фигня что и регрессия. Более продвинутая функция. Но чтобы ее использовать, нужно понять задачу, поставить ее, понять период для экстракта данных, нормализовать данные, убрать экстримы - для всего этого надо иметь опыт и не только стат знания, но и бизнес знания.
Автор может сколько угодно смотреть функции, но модель она не построить. Вернее, построит но это будет фигня. Как оценить стабильность модели, как скоринг делать, как потом эту модель применять к бизнесу - это она не знает и почитать про это не будет достаточно.

копировать

Уважаемый аноним, ну е мое)) Автор же ясно дала понять, что ей нужен модный стат метод (ну пусть dl будет таковым), чтобы репетитор ей показал кнопки. А Вы сейчас еще про необходимость умения в теорвер заявите чего доброго))

копировать

Пардон, пардон. Ну это модный. Главное его еще по-аглицки произносить, вообще будет очень модно.
Автор! Пользуйтесь! В H2O эта функция вообще прекрасно работает.

копировать

Да ладно, изучала я немножко вероятность. Грузили нас китайские преподы вероятностью и матрицами. Конечно, по верхам, но какие-то общие представления дали.

Я тут пока что решила с программой NVivo поиграть, смотрю, там тоже какие-то кластеры. Я пока освоила только, как frequency слов устанавливать, как появляется картинка с группой наиболее частотных слов. И там тоже какие-то кластеры, но компьютер пишет, что мало материала для кластеров.

Вопрос. Я понимаю, что это качественный анализ, а не количественный, но в чем разница между кластерами в NVivo и кластерами в R - ?

Мне компьютер пишет, что мало в NVivo материала для кластеров. А сколько нужно единиц материала? Я тренируюсь с файлами в PDF: загружаю файлы в PDF по похожей теме и смотрю, какие там слова самые частотные. Говорят, народ нынче так литревью делает.

С этой точки зрения в чем разница между NVivo and R -?

У нас нынче с репетиторами напряженка... наша эмигрантская специфика: у самых лучших репетиторов нынче мусульманский пост, все голодают, злые, как черти. Лучше их пока не доставать с моими планами, пока они свой Рамадан не отпразднуют. А то люди сидят на работе весь день, голодают, они после работы голодные не будут мне изобретать, как бы мне быстренько тяп-ляп выучить RStudio.

Насколько я понимаю, они голодают до захода солнца, а солнце заходит уже около 9 часов. Так что у меня пока что селф-стади без репетиторов.

А есть там какие-то функции, чтобы сравнить, например, NVIvo and R -? Например, построить модель, как работодатели через маленькое агентство нанимают каких-нибудь студентов.

В таком смысле, как кто кого выбирает и почему?

Я сначала думала, что это регрессия, но статьи на похожие темы используют что-то другое.

Я так поняла, что это экономика.

Например, кто на ком женится и почему. Принцип тот же.

Много для этого нужно теории выучить и какие функции какого программного обеспечения?

Это SPSS или что-то другое?

Например, со стороны студентов забить туда пол, возраст, сколько у него лет образования, иммигрант или нет и так далее, со стороны работодателя - тоже длинный список характеристик забить.

Получается two-sided matching market, модная тема.

И, например, ограничиться только изучением того материала, который нужен для такой модели.

Что для этого нужно изучить? И туда можно прицепить deep learning?

Я выигрывала в своей жизни гранты по специальностям, к которым я не имела отношения. Но это все было глубоко гуманитарной наукой.

Я подозреваю, что, если четко расписать шаг за шагом и сделать только то, что нужно, то выучить можно, но вопрос, что именно выучить.

Есть у меня на примете несколько бизнесов, если им пообещать, что я им улучшу жизнь, то мне, может, и дадут доступ к цифрам.

Эти бизнесмены бывают вообще необразованными. Я для таких великий академик.

Например, есть деньги из другого бизнеса, а теперь они изобретают технологии. Они их не сами изобретают. Они платят тем, кому они излагают свои мечты, а специалисты им пишут программы, которые они просят.

Пока получается у них не особо, но мне бы на диссертацию хватило. Может, им там на миллионы и не хватит, а мне на какой-нибудь ресерч, как развиваются стартапы... вполне.

Насколько я поняла, такая модель - это не статистика, а экономика, то бишь эконометрика, но я не могу понять, какой именно набор формул мне для этого изучить, какой раздел в какой компьютерной программе изучить.

Насколько я поняла, такие рынки изучают точно так же, как браки: с одной стороны мужчины, с другой - женщины и потом какие-то матрицы.

Ясное дело, что такой бизнес, как у Юбера - там все сложно, и меня туда никто не пустит, а в зачуханном стартапе тоже 2 стороны, matching и не особо большое количество с каждой стороны.

Там не должна быть очень сложной та модель.

И оно же в динамике... Можно изучить завтра, потом через полгода... Если оно, конечно, не загнется.

Зря смеетесь. Я видела людей, не закончивших 12 классов, но заколачивающих большие деньги. Они не делают все сами. Они все время спрашивают других и просят совета. Потом что-то делают. Появляются деньги - кому-то платят.

Как в горах Кавказа: стригут овец. Они там понимают, что нужно набрать овец и их стричь. А сами они ничего не умеют, только книжки про маркетинг читают сутками.

Мы все сильно умные, много учились, а так не умеем.

Можно этот deep learning прицепить к two-sided matching market? В каком вообще разделе эти формулы брать, которые они для построения модели этих двух сторон используют?

Ясное дело, что я ничего в этих статьях не понимаю. Но, если понять, какой раздел учебника, то найму репетитора. Люди с кучей знаний есть, но нужно понять, что мне им поручить....

Или для этого нужен статистик, который изучал экономику? Но что именно мне ему сказать? Что мне нужен вот такой раздел, но какой?

копировать

У меня куча знаний. Готовы платить 150 в час?

копировать

Все объясню, ставка 200 евро за час по предоплате, минимальный заказ 5 часов.