ความแตกต่างระหว่างการทำเหมืองข้อมูลและคลังข้อมูล

Anonim

การทำเหมืองข้อมูล VS คลังข้อมูล

การทำเหมืองข้อมูลและคลังข้อมูลมีทั้งเทคนิคที่มีประสิทธิภาพมากและเป็นที่นิยมในการวิเคราะห์ข้อมูล ผู้ใช้ที่มีแนวโน้มไปทางสถิติจะใช้ Data Mining พวกเขาใช้แบบจำลองทางสถิติเพื่อค้นหารูปแบบที่ซ่อนอยู่ในข้อมูล คนขุดแร่ข้อมูลมีความสนใจในการหาความสัมพันธ์ที่เป็นประโยชน์ระหว่างองค์ประกอบข้อมูลต่างๆซึ่งเป็นประโยชน์สูงสุดสำหรับธุรกิจ แต่ในทางกลับกันผู้เชี่ยวชาญด้านข้อมูลที่สามารถวิเคราะห์ขนาดของธุรกิจได้โดยตรงมักจะใช้คลังข้อมูล

การทำเหมืองข้อมูลมีชื่อว่า Knowledge Discovery in data (KDD) ดังที่กล่าวมาแล้วข้างต้นเป็นสาขาวิชาวิทยาการคอมพิวเตอร์ซึ่งเกี่ยวข้องกับการสกัดข้อมูลที่ไม่รู้จักและน่าสนใจก่อนหน้านี้จากข้อมูลดิบ เนื่องจากการเติบโตของข้อมูลโดยเฉพาะอย่างยิ่งในด้านต่างๆเช่นธุรกิจการทำเหมืองข้อมูลจึงกลายเป็นเครื่องมือที่สำคัญมากในการแปลงข้อมูลจำนวนมหาศาลให้เป็นระบบธุรกิจอัจฉริยะเนื่องจากการใช้รูปแบบต่างๆกลายเป็นเรื่องที่เป็นไปไม่ได้ในช่วง 2-3 ทศวรรษที่ผ่านมา ตัวอย่างเช่นปัจจุบันมีการใช้งานต่างๆเช่นการวิเคราะห์เครือข่ายทางสังคมการตรวจสอบการฉ้อโกงและการตลาด การทำเหมืองข้อมูลมักเกี่ยวข้องกับงานสี่อย่างต่อไปนี้: การจัดกลุ่มการจำแนกการถดถอยและการรวมกลุ่ม Clustering กำลังระบุกลุ่มที่คล้ายกันจากข้อมูลที่ไม่มีโครงสร้าง การจำแนกเป็นกฎการเรียนรู้ที่สามารถประยุกต์ใช้กับข้อมูลใหม่ ๆ ได้โดยทั่วไปจะประกอบด้วยขั้นตอนต่อไปนี้การประมวลผลข้อมูลการออกแบบโมเดลการเรียนรู้ / การเลือกคุณลักษณะและการประเมินผล / การตรวจสอบ การถดถอยคือการหาฟังก์ชันที่มีข้อผิดพลาดน้อยที่สุดกับข้อมูลแบบจำลอง และสมาคมกำลังมองหาความสัมพันธ์ระหว่างตัวแปร การทำเหมืองข้อมูลมักจะใช้ในการตอบคำถามเช่นผลิตภัณฑ์หลักซึ่งอาจช่วยให้ได้รับผลกำไรสูงในปีหน้าใน Wal-Mart หรือไม่?

ดังที่ได้กล่าวมาแล้วการจัดเก็บข้อมูลยังใช้เพื่อวิเคราะห์ข้อมูล แต่โดยผู้ใช้ชุดต่างๆและมีเป้าหมายที่แตกต่างออกไปเล็กน้อย ตัวอย่างเช่นเมื่อพูดถึงภาคการค้าปลีกผู้ใช้คลังข้อมูลมีความกังวลกับประเภทการซื้อที่เป็นที่นิยมในหมู่ลูกค้าดังนั้นผลการวิเคราะห์สามารถช่วยลูกค้าได้โดยการปรับปรุงประสบการณ์ของลูกค้า แต่คนขุดแร่ข้อมูลแรกคาดเดาสมมติฐานเช่นที่ลูกค้าซื้อสินค้าบางประเภทและวิเคราะห์ข้อมูลเพื่อทดสอบสมมติฐาน การจัดเก็บข้อมูลอาจดำเนินการโดยผู้ค้าปลีกรายใหญ่ที่เริ่มเก็บข้อมูลร้านค้าด้วยผลิตภัณฑ์ขนาดเดียวกันเพื่อหาว่านิวยอร์กมีร้านขายสินค้าขนาดเล็กกว่าร้านชิคาโกมากน้อยเพียงใด ดังนั้นโดยการมองไปที่ผลลัพธ์นี้ร้านค้าปลีกสามารถเก็บสต๊อกของ New York ที่มีขนาดเล็กลงเมื่อเทียบกับร้านค้าในชิคาโก

ดังนั้นอย่างที่คุณเห็นได้ชัดเจนการวิเคราะห์ทั้งสองแบบนี้ดูเหมือนจะเป็นลักษณะเดียวกันกับตาเปล่า ทั้งสองกังวลเกี่ยวกับการเพิ่มผลกำไรจากข้อมูลในอดีต แต่แน่นอนมีความแตกต่างที่สำคัญ ในแง่ง่ายๆการทำเหมืองข้อมูลและคลังข้อมูลจะทุ่มเทเพื่อให้บริการการวิเคราะห์ที่แตกต่างกัน แต่สำหรับผู้ใช้ประเภทต่างๆ กล่าวอีกนัยหนึ่งข้อมูลการทำเหมืองแร่มองหา correlations, patters เพื่อสนับสนุนสมมุติฐานทางสถิติ แต่คลังข้อมูลจะตอบคำถามที่กว้างขึ้นและจะหั่นและตัดข้อมูลออกจากที่นั่นเป็นต้นไปเพื่อทำความเข้าใจแนวทางในการปรับปรุงในอนาคต