Биг дата- с чего начать?

копировать

Я домохозяйка, сто лет назад закончила ВМиК. Чуть поработала в продажах, потом декрет и засела дома. Сейчас брак трещит по швам, надо готовить пути отступления. Искать работу и тому подобное.
Узнала, что бигдатистам-датасаентистам хорошо платят. Как думаете, возьмут тетю 40 лет джуном?
И с чего начать, что учить? Нашла курсы на степике, курсере, вспоминаю матстат, питон начала учить, а что еще надо?

копировать

Найдите форум, где они тусят, и задайте эти самые вопросы. 9 Вас пошлют, десятый ответит по сути )))

копировать

Вы сначала с этим новомодным течением нас ознакомьте вкратце. В принципе можно и самим в нете почитать, но интересна именно ваша трактовка своими словами...

копировать

Это старое течение, новое название плюс новые подходы.

копировать

Способы получения информации из цифровых данных. Ничего нового

копировать

Неверно. Это не только цифровые данные. Это вообще все данные.

копировать

Привидите пример нецифровых данных, из которых сейчас без отцифровывания извлекают информацию? И чтобы это называли бигдатой?

копировать

Транцакции, например, лет за 5. Онлайновый браузинг. Онлайновое или физическое казино транзакции - это все биг дата, и только одни из примеров.

копировать

Это примеры НЕЦИФРОВЫХ данных?

копировать

транзакции вы называете digital data? Ну возможно, если формально.

копировать

Биг дата - цифровые, но неструктурированные данные. Транзакции, если на бумаге написаны - то нецифровые, а если в файле набиты - то цифоровые. Делов-то :)

копировать

Структурированные тоже к ней относятся.

копировать

Зависит от первого диплома. Матстат, теорвер, А И ТЧ норм? Пробуйте сразу АI. Больше платят и интересно.

копировать

Пробуйте сейчас, как есть, устраиваться в какое-нибудь маркетинговое агентство. Я тоже закончила ВМК, мне друзья, работающие в этом, рассказывают периодически, что нужны надежные грамотные люди, которые могут к сроку делать простые операции с массивами данных. Даже просто в Excel. Но аккуратно. И не такие, что через два месяца уволятся. И проблема их найти, с адекватными запросами. У вас даже преимущество есть.
И проблема есть, приходят соискатели с дипломом "прикладная математика" и не могут тестовую задачку решить.
Начнете работать, по ходу дела проще будет осваиваться и повышать квалификацию.
Но вообще, от этих же друзей я слыхала, что потолок в этой отрасли довольно низкий, по сравнению с другими вариантами для выпускника ВМК

копировать

а что такое бигдата?... я походу отстала от жизни)и что такое джун?)

копировать

Если вы знаете статистику все ещё и можете писать на питоне то могут и взять. Так что начните с питона. А ещё можете изучить скалу.

копировать

смотря где вы и в какой компании собираетесь работать . Я использую R, octave. Пайтон наверное лучше всех.

копировать

Смотря для чего.

копировать

Я В Москве. Про компанию не знаю, куда возьмут. Думаю, у нас устроиться немолодой тете в ИТ и в высокооплачиваемую сферу сложно. Подруга работает в Германии, она самая молодая в отделе (ей 44, биг датой и занимается).

копировать

Я тоже в Европе и относительно недавно освоила эту тему. Не могу сказать про Москву. У нас Пайтон рулит у всех аналитиков. Но вы ищите, почему нет? тем более, если есть еще какие-то скиллы и сможете совместить их. Я занимаюсь маркетингом, аналитикой и датой. мне нравится очень, я не сижу с утра до ночи кодируя, но визуализирую свои находки и прогнозы.

копировать

А подруга что-то советует, что учить нужно?

копировать

Просматривайте объявления о работе, что чаще всего встречается в требованиях, то и учите.

копировать

А потом? Какой резон брать тетю после курсов без опыта?

копировать

Тетя не спрашивала, возьмут ее или нет, а спрашивала как максимизировать шансы на то что ее возьмут. Я ответила. Понятно, что без опыта сначала можно претендовать на меньшую зарплату, но где-то же надо начинать.

копировать

+ много..
Главное начать.. :)

копировать

Такую тетю возьмут скорее рано, чем поздно ))) Старый ВМК это марка и тетя адекватно оценивает свое положение.

копировать

Смотрела сейчас работу ребенку на лето (вакансии 14-17 лет), нашла вот что.
https://hh.ru/vacancy/31141647
Хотя очень странно, почему этот координатор может быть в 14 лет. Nakamoto terminal, судя по всему, реально существует и вполне себе интересная платформа bigdata

копировать

Я бы еще SQL добавила...

копировать

Тогда и джаву, и хайвз.

копировать

Этим никогда не пользовалась. А Python, SQL и Tableau вполне.
Но я и не совсем Data Analytic.

копировать

Разговор то про биг дату. А это может быть и хадуп, и тогда сиквел не поможет, нужно хайвз запросы писать.

копировать

А что такое хайвз?

копировать

Хайв это такая хрень, которая сидит на хадупе, позволяет вытаскивать из хадупа данные, и язык похож на сиквел.

копировать

Спасибо, покопаюсь на досуге для общего развития

копировать

Если английский знаете, идите на datacamp. Курсы платные, но для меня они показались самыми понятными для обучения (можно в инете поискать купон на 2 мес. бесплатного доступа). Хотя есть куча бесплатных на coursera, udacity, edx.

копировать

Спасибо огромное!

копировать

Легко. Резюме работодателям направьте.

копировать

Это крайне унылая работа.
Большую часть времени ты сидишь и пытаешься сопоставить данные, преобразуешь данные из одного формата в другой, муторно очищаешь их от неправильно введенных значений, пытаешься бороться с источниками данных. Боль и страдание
Большинство думает, что это высокоаналитическая работа, а в итоге бигдатисты занимаются первичной обработкой данных. Один шарит - строит графики, а остальные 10 говна разгребают, подчищают данные для него
И перейти из десятки в того одного аналитика практически невозможно. Разные уровни и они практически не пересекаются

копировать

Видимо, везде по-разному. У нас этим data engineers занимаются. Data Scientists и Data Analytics уже с готовыми массивами работают.

копировать

В итоге 80% времени-багафикс. И так везде:-) Оклад радует,но печааааааль.

копировать

Просто вы оказались на такой работе, к аналитике не имеющей ни малейшего отношения. Но автор с ее отсутствием опыта скорее всего тоже только на такую и сможет претендовать.

копировать

Просто я Quant developer в hedgefond, хорошо знаю 4-5 языков, знакома еще с десятком. И знаю, чем в основном занимаются люди по теме топа. Пропорции занятых на интересной работе в этой сфере указала сразу.

копировать

Извините, но вы напрасно пальцы растопыриваете. Вы много знаете, но только в своей области. Очень узкой, надо сказать.
Работать интересно - зависит от того, кто хочет работать.

копировать

Нет, это вы уже второй раз делаете произвольные выводы, ошибаясь с ними, и даете свою эмоциональную окраску)

копировать

Просто разный опыт. Но вы априори считаете свой опыт более обширным.

копировать

Естественно. Я же знаю, чем я занималась до этого, и на какие места с какими задачами регулярно собеседуюсь, чтобы продолжать быть конкурентоспособной.
А вы мой отзыв по теме приравняли к моему основному роду деятельности)
Вокруг бигдата много хайпа, много шума. Многие люди сделали выводы, что там деньги и идут этим заниматься. Другие решают, что им это очень надо, затрачиваются. Хотя часто проще нанять двух индусов и они тихо все сделают ручками

копировать

С этим соглашусь. Просто переименовали то, что было всегда, просто расширились возможности. Но интересного и раньше, и сейчас был небольшой процент. При желании к этому небольшому проценту можно подобраться, но с нуля как у автора это практически не возможно.

копировать

Да, именно в этом дело, в ситуции автора. Дата аналитики это считай элита. Без опыта, правильного образования и связей в этой сфере туда никто не доберется. Одного профильного образования недостаточно. Нужно знать свою сферу, например, финансы. Я изначально описала то, чем занимаются дата инженеры, я это вижу каждый день

копировать

боже мой, я вообще не в курсе что это за работа такая..кроме статистики ничего не поняла

копировать

Это не работа. Это буквально много данных. И с ними можно делать работу, разную. Можно даже в экселе считать и это тоже будет работа с биг датой. Можно быть дата сайнтистом и работать с биг датой, использую эксель и /или разные языки программирования. Применяется во всех индустриях почти.

копировать

https://t.me/datajobschannel идите туда и читайте, там пасутся русскоязычные спецы по биг дате, из разных стран, городов и весей.

копировать

муж в банке возглавляет отдел машинного обучения ( искуственный интеллект). на основе больших данных строят модели. у него в подчинении много датасантистов. если без опыта, то берут студентов определенных ВУЗов после 4 курса. примерно за 3 месяца ( максимум полгода) люди вполне себе неплохо работают. Но у них есть система наставничества. также все проходят курсы ( в банке это бесплатно). знаю точно Питон на курсах есть и тд.

копировать

А из каких вузов берут? Сын собирается поступать в Финансовую Академию на факультет IT. Якобы оттуда как раз в банки идут работать. Не могли бы вы спросить у мужа, как у них Финакадемия котируется?

копировать

уточнила: МГУ (мех мат, вмк), МИФИ, вышка и все топовые технические вузы. также их банк курирует несколько кафедр в вузах.

копировать

Спасибо!

копировать

Умоляю, расскажите в чем заключается эта работа биг дата. Только языком, понятным обыватежю, прям на пальцах. Я столько раз гуглила, но так и не смогла понять что конкретно они делают, какой конечный продукт и кто им пользуется.

копировать

Выше все на пальцах объяснено. У вас есть техническое образование?

копировать

Обрабатывают информацию. Грубо говоря, это прогнозирование основанное ислучительно на измерениях (статистике), а не на теории. Например, рассылая рекламу детективмого романа вы можете делать это двумя способами:
1. Основываясь на теории - те кто любят детективы (или автора романа), купят и этот детектив.
2. Посмотреть положительные отзывы о романе, собрать информацию о книгах которые были куплены людьми оставившими положительные отзывы и разослать рекламу тем кто купил те же книги что и люди оставившие положительные отзывы. Это будет биг дата.
Смысл биг даты в том что она не пытается найти ответ на вопрос "почему", а просто тупо использует доступную информацию.

копировать

Представляете, и на вопросы почем тоже прекрасно дает ответы. И вовсе не тупо.

копировать

Представляю, потому что с этим работаю. Может дать, а может и не дать. Смысл БД не в этом.

копировать

Смысл и в этом тоже. Смысл в том чтобы эти данные дали ответы на вопросы, которые бизнес задает. А не в том, что она может быть может дать.

копировать

Ответить на вопрос “Почему?» -это и есть главная задача Data Scientist ))

копировать

Почему что, простите? ДС занимаются алгоритмами сбора и обработки информации. А уж как эта информация будет использована, зависит от типа данных. Смысл БД в возможности использования прямого потока данных вместо теории основаной на выборках.

копировать

ДС занимаются алгоритмами сбора и обработки информации - это вы, по-моему, путаете с Data Engineers.
Как варианты задач для Data Scientists - более точное предложение продуктов и услуг для потребителей, поиск причинно-следственных связей в поведении клиентов.

копировать

Нет, я не путаю. ДС это по сути очень продвинутый ДЕ. ДС занимаются именно разработкой методов. А ДЕ выполняют "черную" работу.
Анализом данных занимаются те, кому эти данные предназначаются. Например в моем случае это геологи и геофизики. Моя подруга работает с языками, поэтому в ее случае это переводчики и лингвисты.
Вся идея БД заключается как раз в том, что вам не нужно искать причинно-следственные связи. Это дает возможность быстро и правильно реагировать не углубляясь в проблему. Например, если вы видите что 50% людей купивших в вашем магазине желтые носки, купили еще и красную кепку, вы положите эти носки рядом с кепкой и разошлете рекламу кепки владельцам желтых носков. Почему любителям желтых носков нравятся красные кепки, вас не волнует совершенно.

копировать

Анализом данных и занимаются статистики, дата сайнтисты.
А вопрос почему в вашем случае вообще не имеет смысла. А вот вопрос почему любители желтых носков перестали покупать желтые носки - очень даже имеет. И на него можно дать ответ. Это тоже важно.

копировать

Анализом КАКИХ данных занимаются статистики? БД активно применяется в медицине, нефтяной и металлургической промышленности, автоматизированных переводах и еще куче областей. Как сайнтисты могут заниматься анализом этой информации?
БД не ответит вам на вопрос почему любители желтых носков их разлюбили. Вы теорию Вообще учили? Определение БД помните? Как только вы отделяете любителей желтых носков от всэ остальных, сортируете их и начинаете строить теории на тему "почему", вы уходите из области БД и перэодите в область анализа данных и статистики.

копировать

Не знаю уж, как вам объяснить как они могут заниматься анализом - так вот и занимаются.
"БД не ответит вам на вопрос почему любители желтых носков их разлюбили. " - ответит. Я этим занимаюсь.
"Вы теорию Вообще учили? " - я 15 лет занимаюсь на практике, разрабатываю и применяю.
"вы уходите из области БД и перэодите в область анализа данных и статистики." - когда говорят про биг дату, в том числе подразумевают и анализ этой биг даты. А как там установить хадуб или сиквел сервер - это инженеры и архитекторы, их не называют специалистами по биг дате.

копировать

Ну ват я тоже не знаю как ваши ДС занимаются анализом геологических пород, реакций елементарных частиц и переводов стихов. Даже представить себе не могу.
А теорию все-таки почитайте. В той же википедии в англ варианте все овхень хорошо расписано. В том числе про причинно-следственные связи, которые для БД не являются обязательным элементом прогнозирования.

копировать

Переводом стихов тоже можно заниматься, кстати. Я могу представить, Вы нет - пока мало опыта и практики.
У меня с теорией все прекрасно. И с практикой тоже. Это моя профессия.

копировать

Ну вот как то это совершенно незаметно по вашим ответам, которые упираются в одну единственную отрасль использования БД, а именно - деньги.

копировать

Девушка, вам не заметно, потому что я не пытаюсь вам тут показать, как я знаю теорию :). Вы, по-видимому, учитесь, да?
Причем здесь деньги? Вы имеете в виду прибыль? Да, переводить стихи тоже можно с целью прибыли. И ответить на вопрос почему не хотят покупать желтые носки - это прежде всего приводит к прибыли. И это очень важно ответить на этот вопрос.

копировать

Нет, я как раз работаю. Конкретно пейчас пытаюсь выжать информацию из акустических данных и измерений температуры, давления и плотности, в то время как наш дата сайнтист пытается придать этим данным удобоваримый вид.

копировать

Просто у вас так названы должности :).

копировать

Не. ДС занимается анализом данных ( с применением алгоритмов) чтобы отвечать на подобные вопросы. Это их задача тоже найти ответы, чтобы их потом можно было использовать.
Можно и на прямом потоке данных, можно и на одноразовой выборке. Это все ДС. Раньше это называлось просто Advanced Analytics.

копировать

Теперь понятно откуда берется спам :)

копировать

Да, это машин лернинг в действии. Но это только одно из применений.

копировать

Если на пальцах, то Бигдата занимается обработкой массивов информации для последующей генерации и рассылки спама, якобы ориентированного на конкретного потребителя.

копировать

Нет, это только сегмент, в котором она тоже используется