Data Science нь компьютерийн шинжлэх ухаан, математик болон статистик, бизнесийн (ажиллаж буй датаны тухай) мэдлэг гэсэн гурван салбарын огтлолцол юм.

                                Зургийн эх сурвалж: www.towardsdatascience.com

Датаг цуглуулах, цэвэрлэж бэлдэх, дүн шинжилгээ хийх, таамаглал гаргаж, модел боловсруулах, гарсан үр дүнг харуулах гээд бүх үе шат Data Science-д хамаарна. Тэгвэл дата гэж юу вэ?

Дата гэдэг үг нь анх дамжуулж, хадгалж болох мэдээлэл гэсэн утгаар хэрэглэгдэж эхэлсэн бөгөөд латин хэлний “өгөгдсөн” гэдэг үгнээс үүсэлтэй. Дата нь тодорхой хугацааны туршид хадгалагдаж үлдсэн олон янзын, электрон, цаасан, цэгцтэй, замбараагүй мэдээлэл юм. Датаг тэр дундаа биг датаг IBM-н инженеерүүдийн санаачилсны дагуу 4V-р хэмждэг. Volume-Хэмжээ. Velocity-Хурд. Variety-Төрөл зүйл. Veracity-Үнэн зөв байдал.

Data Science дотор Дата майнинг, Дата анализ, Дата визуализэйшн багтдаг.

Дата Майнинг нь өмнө нь мэдээгүй, онцолж анзаараагүй байсан шинэ мэдээллийг датанаас гаргаж авах үйл явц юм. Энд machine learning-н техникүүд ашиглагддаг. Үүнийг өөрөөр Knowledge discovery гэнэ. Харин дата анализ нь датаг цуглуулж бэлдэх, цэвэрлэх, дүн шинжилгээ хийх, таамаглал гаргах, модел боловсруулах, гарсан үр дүнг бусдад танилцуулах гэсэн илүү өргөн хүрээтэй процесс юм.

Data mining vs Data analysis

Дата Майнинг нь статистик, датабааз, machine learning-тэй ажиллах чадварыг шаарддаг бол дата анализ нь эдгээр дээр нэмээд математик, програмчлал, AI, ажиллаж буй датаныхаа тухай мэдлэгтэй байхыг шаардана.

Дата Майнинг-н үр дүнд датанаас зүй тогтол бүхий мэдээлэл гардаг бол Дата анализ-н үр дүнд гаргасан таамаглын баталгаа эсвэл датаны тухай олон төрлийн мэдээлэл гарна. Жишээ нь дата Майнинг хайлт хийсэн хүн ямар хүн худалдан авалт хийж байгааг, дата анализ өнгөрсөн 10 жилийн хугацаан дах ажилгүйдлийн түүхэн мэдээлэлд шинжилгээ хийдэг.

Data Science ба хиймэл оюун ухаан

AI буюу хиймэл оюун ухааныг ашиглаж буйн гол зорилго нь хүн шиг сэтгэдэг төхөөрөмж бүтээх юм. Жишээ нь: жолоочгүй машин, алимтай утасны Сири гэх мэт. Бодит амьдралд хамгийн их хэрэглэгдэж буй AI-н нэг салбар нь machine learning юм. Machine learning нь Data Science-нд тэр дундаа дата майнингийн үед их хэрэглэгддэг бөгөөд AI, Data Science хоёрын огтлолцол болдог.

Эндээс харвал нь Data Science нь дата майнинг, дата анализ, дата визуализэйшн-г өөртөө агуулах бөгөөд өөрөө machine learning-г хэрэглэдэг тул AI-тай мөн огтлолцдог “шинэхэн” шинжлэх ухаан юм.

Дата анализын зорилго

Өгөгдөлд анализ хийх үедээ дата аналист хоёр төрлийн мэдээлэл гаргаж авах боломжтой.

  1. Хэрэглэгч, удирдлагын хүсэлтийн дагуух хэрэгцээт мэдээлэл
  2. Өмнө нь анзаарч, сонирхоогүй байсан цоо шинэ мэдээлэл гаргах

Анализ хийх, үр дүн гаргах энэ бүх процесс нь эцэстээ нэг л гол зорилготой. Энэ бол шийдвэр гаргалтад нөлөөлөх юм. Өгөгдлөөс гарсан үнэн, зөв мэдээлэлд үндэслэснээр шийдвэрүүд илүү сайн, илүү хурдан болно.

Дата ашигласнаар ямар үр дүнд хүрч болох вэ?

Таргет супермаркет

Зуршлын хүч номонд хүмүүсийн зуршил, өөрсдөө ч мэдэлгүйгээр тогтмол хийдэг үйлдлүүдийг бизнесийн байгууллагууд хэрхэн ашиглаж байгаа тухай нэг сонирхолтой жишээ дурдагддаг. Таргет хэмээх супермаркетын ажилтан, статистикч Андрю Пол хэрэглэгчдийнхээ мэдээлэл дээр үндэслэн худалдан авагч эмэгтэй жирэмсэн эсэхийг таамаглах модел боловсруулжээ. Тэрээр нэг ярилцлагадаа “… зарим зүй тогтлууд ажиглагдсан. Жишээ нь жирэмсэн эмэгтэйчүүд үнэргүй, том савлагаатай гоо сайхны бүтээгдэхүүн авч эхэлдэг. Бараг бүх хүн саван, хөвөн худалдаж авдаг ч хэн нэгэн гэнэтхэн л том савлагаатай, үнэргүй саван, том савтай хөвөнгүүд, хажуугаар нь гар ариутгагч, хувцас угаатгагч аваад эхэлбэл тэр эмэгтэй жирэмсэн гэсэн үг…”

Ингээд жирэмсэн байх магадлал өндөртэй хүмүүс рүү хүүхдийн бүтээгдэхүүний купон, жирэмсний үед хэрэглэдэг бүтээгдэхүүний танилцуулгууд явуулж эхэлжээ. Үр дүнд нь тэдний орлого өссөн байна.

Нэгэн удаа өсвөр насны охинд нь хүүхдийн хувцасны сурталчилгаа ирсэнд бухимдсан хэрэглэгч Таргетад гомдол мэдүүлжээ. Гэвч тэрээр хэд хоногийн дараа охин нь жирэмсэн байсан бөгөөд энэ тухай гэрийнхэн нь мэдээгүй байсныг хэлжээ. Үүнээс болоод “таны жирэмсэн болсныг эргэн тойрны хүмүүс чинь мэдэхээс өмнө Таргетийн стастикчид мэдэх болно” гэдэг шог гарчээ.

2009 оны үед Гүүгл өөрсдийн хайлтын системийн мэдээллийг ашиглан Америкийн Нэгдсэн улсын аль бүс нутагт H1N1 ханиадны вирусын тархалт өндөр байгаа тухай таамаглал гаргаж байв. Өвчний шинж тэмдэг илрэхэд хүмүүс хамгийн түрүүнд эмчид очих биш интернетээр хайлт хийж байжээ. Энэ мэдээлэлд үндэслэн аль хэсэгт ханиадны халдвар их байх тухай магадлалыг гүүглийн инженеерүүд тооцоолж байв.

UPS маш ашигтай ажилладаг, үүнд ямар нэг нууц байна уу гэсэн асуултад нэгэн захирал нь “манай машинууд хэзээ ч зүүн эргэдэггүй” гэж хариулжээ. Жилд 10 сая галлон түлш хэмнэдэг.

Чикагогийн цагдаагийн газар IBM-тай хамтран гэмт хэргийн эсрэг ажиллаж байгаа бөгөөд гэмт хэрэг гарах магадлал өндөртэй хугацаа, байршлыг таамаглан шийдвэр гаргадаг.

Тэгэхээр

Цуглуулсан, цуглуулж байгаа, цуглуулж чадах өгөгдлүүдийнхээ тухай тэднийг юунд хэрэглэж болох тухай одооноос бодож эхэлцгээе.

Сэтгэгдэл

One Thought on “Датаг шинжлэх ухаан”

  • Дата анализын талаар сонирхолтой мэдээллүүдийг оруулж байгаад маш их баярлалаа. Цаашдаа сүүлийн үеийн улам илүү сонирхолтой мэдээ мэдээллүүдийг оруулна гэж итгэж байна. Ажлын амжилт хүсэе!

Leave a Reply

Your email address will not be published. Required fields are marked *