การเอาชนะโลกที่เต็มไปด้วยข้อมูลสกปรก

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เช่นเดียวกับไวรัสที่มองไม่เห็น “ข้อมูลสกปรก” ที่สร้างภัยพิบัติให้กับโลกธุรกิจในปัจจุบัน กล่าวคือ ข้อมูลที่ไม่ถูกต้อง ไม่สมบูรณ์ และไม่สอดคล้องกันกำลังแพร่หลายในโลกที่เน้น "ข้อมูลขนาดใหญ่" ในปัจจุบัน

การทำงานกับข้อมูลสกปรกทำให้บริษัทต้องสูญเสียรายได้หลายล้านดอลลาร์ต่อปี โดยจะลดประสิทธิภาพและประสิทธิผลของแผนกต่างๆ ทั่วทั้งองค์กร และลดความพยายามในการเติบโตและขยายขนาด มันขัดขวางความสามารถในการแข่งขัน เพิ่มความเสี่ยงด้านความปลอดภัย และนำเสนอปัญหาการปฏิบัติตามกฎระเบียบ

ผู้ที่อยู่ในความดูแลของ การจัดการข้อมูล ต้องต่อสู้กับความท้าทายนี้มานานหลายปี เครื่องมือจำนวนมากที่มีอยู่ในปัจจุบันสามารถแก้ไขปัญหาการจัดการข้อมูลสำหรับทีมที่แยกส่วนภายในแผนกได้ แต่ไม่ใช่สำหรับบริษัทขนาดใหญ่หรือระบบนิเวศของข้อมูลในวงกว้าง ที่แย่กว่านั้นคือเครื่องมือเหล่านี้มักจะจบลงด้วยการสร้างข้อมูลที่ต้องจัดการมากขึ้น และข้อมูลนั้นก็อาจสกปรกได้เช่นกัน ทำให้เกิดอาการปวดหัวและสูญเสียรายได้มากขึ้น

ทำความเข้าใจข้อมูลสกปรก

ข้อมูลสกปรก หมายถึงข้อมูลใดๆ ที่ทำให้เข้าใจผิด ซ้ำ ไม่ถูกต้องหรือไม่ถูกต้อง ยังไม่บูรณาการ ละเมิดกฎเกณฑ์ทางธุรกิจ ขาดการจัดรูปแบบที่เหมือนกัน หรือมีข้อผิดพลาดในเครื่องหมายวรรคตอนหรือการสะกดคำ

เพื่อทำความเข้าใจว่าข้อมูลสกปรกแพร่หลายไปทุกหนทุกแห่งในช่วงไม่กี่ทศวรรษที่ผ่านมา ลองจินตนาการถึงสถานการณ์ต่อไปนี้:

ผู้ให้กู้ในธนาคารขนาดใหญ่เกิดความสับสนเมื่อพบว่าลูกค้าของธนาคารเกือบทั้งหมดเป็นนักบินอวกาศ เมื่อพิจารณาว่า NASA มีเพียง นักบินอวกาศไม่กี่สิบคนสิ่งนี้ไม่สมเหตุสมผล

จากการสำรวจเพิ่มเติม แผนกสินเชื่อพบว่าเจ้าหน้าที่ธนาคารที่เปิดบัญชีใหม่ได้ใส่ "นักบินอวกาศ" เข้าไปในสาขาอาชีพของลูกค้า ผู้ให้กู้เรียนรู้ว่าลักษณะงานไม่เกี่ยวข้องกับคู่สัญญาที่รับผิดชอบบัญชีใหม่ เจ้าหน้าที่ธนาคารได้เลือก "นักบินอวกาศ" ซึ่งเป็นตัวเลือกแรกที่มีอยู่ เพื่อให้การสร้างบัญชีใหม่รวดเร็วยิ่งขึ้น

อย่างไรก็ตามผู้ให้กู้จะต้องมีอาชีพที่ถูกต้องของลูกค้าบันทึกไว้เพื่อรับโบนัสประจำปี เพื่อแก้ไขสถานการณ์ แผนกสินเชื่อจะพัฒนาฐานข้อมูลของตนเองแยกกัน พวกเขาติดต่อลูกค้าแต่ละราย เรียนรู้อาชีพที่ถูกต้อง และแทรกลงในฐานข้อมูลของพวกเขา

ขณะนี้ ธนาคารมีฐานข้อมูลสองแห่งที่มีข้อมูลเดียวกัน ยกเว้นฟิลด์เดียว หากหน่วยงานที่สามต้องการเข้าถึงข้อมูลในฐานข้อมูลเหล่านั้น ไม่มีระบบใดที่จะตัดสินว่าฐานข้อมูลใดถูกต้อง ดังนั้นแผนกที่สามนั้นอาจสร้างฐานข้อมูลของตัวเองด้วย

สถานการณ์ที่คล้ายกันเกิดขึ้นในองค์กรต่างๆ ทั่วประเทศมานานหลายทศวรรษ

การฝังกลบข้อมูลดิจิทัลที่กำลังเติบโต

ปัญหาเริ่มต้นขึ้นในปี 1990 ด้วย การแปลงดิจิตอล บูม บริษัทต่างๆ ปรับใช้ซอฟต์แวร์ระดับองค์กรเพื่อปรับปรุงกระบวนการทางธุรกิจของตน ตัวอย่างเช่น ผลิตภัณฑ์ซอฟต์แวร์ในรูปแบบบริการจาก Salesforce ช่วยให้มีวิธีที่ดีกว่าในการจัดการระบบการขายและการตลาด

แต่ 30 ปีต่อมา โครงสร้างพื้นฐานแบบเดิมดังกล่าวส่งผลให้เกิดฝันร้ายในการจัดการข้อมูล กระจายไซโลข้อมูลด้วยข้อมูลที่ซ้ำซ้อน ไม่สมบูรณ์ และไม่ถูกต้องกระจายไปทั่วภาพรวมองค์กรและภาครัฐ ไซโลเหล่านั้นประกอบด้วยสายธุรกิจ ภูมิศาสตร์ และฟังก์ชันที่เป็นเจ้าของและดูแลแหล่งข้อมูลตามลำดับ

นอกเหนือจากนั้น การสร้างข้อมูลยังเพิ่มขึ้นอย่างมากในช่วงหลายทศวรรษที่ผ่านมา ปัจจุบันแต่ละกระบวนการทางธุรกิจจำเป็นต้องมีซอฟต์แวร์ของตัวเอง ทำให้เกิดข้อมูลเพิ่มมากขึ้น แอปพลิเคชันจะบันทึกทุกการกระทำในฐานข้อมูลดั้งเดิม และอุปสรรคในการขุดสินทรัพย์ข้อมูลที่สร้างขึ้นใหม่ได้เผยออกมาแล้ว

ในทศวรรษที่ผ่านมา คำศัพท์ที่กำหนดข้อมูลมีความเฉพาะเจาะจงกับกระบวนการทางธุรกิจที่สร้างขึ้น วิศวกรต้องแปลพจนานุกรมเหล่านั้นเป็นพจนานุกรมแยกสำหรับระบบที่ใช้ข้อมูล โดยทั่วไปไม่มีการรับประกันคุณภาพ ดังตัวอย่างข้างต้นของนักบินอวกาศ ข้อมูลที่ฟังก์ชันธุรกิจหนึ่งใช้งานได้ แต่ฟังก์ชันอื่นๆ ก็ใช้ไม่ได้เช่นกัน และการเข้าถึงข้อมูลจากกระบวนการทางธุรกิจดั้งเดิมนั้นมีจำกัด อย่างดีที่สุด สำหรับฟังก์ชันที่อาจได้รับการปรับให้เหมาะสมที่สุด

ปริศนาการคัดลอก

เพื่อแก้ไขปัญหานี้ วิศวกรจึงเริ่มทำสำเนาฐานข้อมูลต้นฉบับ เพราะจนกระทั่งเมื่อไม่นานมานี้ ฐานข้อมูลดังกล่าวเป็นตัวเลือกที่ดีที่สุด จากนั้นพวกเขาจึงแปลงสำเนาเหล่านั้นเพื่อให้เป็นไปตามข้อกำหนดของฟังก์ชันการบริโภค โดยใช้กฎคุณภาพข้อมูลและตรรกะการแก้ไขเฉพาะสำหรับฟังก์ชันการบริโภค พวกเขาทำสำเนาจำนวนมากและโหลดลงในคลังข้อมูลและระบบการวิเคราะห์หลายแห่ง

ผลลัพธ์? สำเนาชุดข้อมูลล้นซึ่งอ่านว่า "สกปรก" ไปยังบางส่วนขององค์กร ทำให้เกิดความสับสนว่าสำเนาใดถูกต้อง ปัจจุบันบริษัทต่างๆ มีสำเนาแหล่งข้อมูลหลายร้อยสำเนาทั่วทั้งที่เก็บข้อมูลการปฏิบัติงาน ฐานข้อมูล คลังข้อมูล Data Lake แซนด์บ็อกซ์การวิเคราะห์ และสเปรดชีตภายในศูนย์ข้อมูลและระบบคลาวด์หลายแห่ง อย่างไรก็ตาม หัวหน้าเจ้าหน้าที่สารสนเทศและหัวหน้าเจ้าหน้าที่ข้อมูลไม่สามารถควบคุมจำนวนสำเนาที่สร้างขึ้นหรือทราบว่าเวอร์ชันใดแสดงถึงแหล่งที่มาของความจริงที่แท้จริง

มีผลิตภัณฑ์ซอฟต์แวร์กำกับดูแลข้อมูลมากมายเพื่อแก้ไขปัญหานี้ ซึ่งรวมถึงแคตตาล็อกข้อมูล ระบบการวัดคุณภาพข้อมูลและการแก้ไขปัญหา ระบบการจัดการข้อมูลอ้างอิง ระบบการจัดการข้อมูลหลัก การค้นพบสายข้อมูล และระบบการจัดการ

แต่การเยียวยาเหล่านั้นมีราคาแพงและใช้เวลานาน โครงการการจัดการข้อมูลหลักโดยทั่วไปในการรวมข้อมูลลูกค้าจากแหล่งข้อมูลหลายแหล่งจากสายผลิตภัณฑ์ที่แตกต่างกันอาจใช้เวลาหลายปีและมีค่าใช้จ่ายหลายล้านดอลลาร์ ในเวลาเดียวกัน ปริมาณข้อมูลสกปรกก็เพิ่มขึ้นด้วยความเร็วที่แซงหน้าความพยายามขององค์กรในการติดตั้งการควบคุมและการกำกับดูแล

วิธีการเหล่านี้เต็มไปด้วยข้อบกพร่อง พวกเขาอาศัยกระบวนการที่ต้องทำด้วยตนเอง ตรรกะการพัฒนา หรือกฎเกณฑ์ทางธุรกิจเพื่อดำเนินงานด้านสินค้าคงคลัง การวัด และการแก้ไขข้อมูล

การกู้คืนการควบคุม

เทคโนโลยีเกิดใหม่สามเทคโนโลยีเหมาะสมที่สุดในการรับมือกับสถานการณ์ในปัจจุบัน ได้แก่ การกำกับดูแลข้อมูลที่ขับเคลื่อนด้วย AI และการเรียนรู้ของเครื่องจักร แพลตฟอร์มการทำงานร่วมกันเชิงความหมาย เช่น กราฟความรู้ และระบบการกระจายข้อมูล เช่น บัญชีแยกประเภทแบบกระจาย:

1. โซลูชันการกำกับดูแลข้อมูลที่ขับเคลื่อนด้วย AI และการเรียนรู้ของเครื่อง ลดการพึ่งพาผู้คนและรหัส AI และการเรียนรู้ของเครื่องเข้ามาแทนที่การทำงานด้วยตนเองด้วยการดำเนินการต่างๆ ซึ่งรวมถึงการติดแท็กอัตโนมัติ การจัดระเบียบ และการควบคุมดูแลข้อมูลจำนวนมหาศาล การเปลี่ยนแปลงการจัดการข้อมูลและการย้ายข้อมูลช่วยลดต้นทุนด้านไอที องค์กรอาจสร้างสถาปัตยกรรมที่แข็งแกร่งและยั่งยืนมากขึ้นเพื่อส่งเสริมคุณภาพข้อมูลในวงกว้าง

2. กราฟความรู้ อนุญาตให้มีการทำงานร่วมกันโดยธรรมชาติของสินทรัพย์ข้อมูลที่แตกต่างกันเพื่อให้สามารถรวมและทำความเข้าใจข้อมูลภายใต้รูปแบบทั่วไป ด้วยการใช้ประโยชน์จากออนโทโลจีเชิงความหมาย องค์กรต่างๆ สามารถพิสูจน์ข้อมูลในอนาคตพร้อมบริบทและรูปแบบทั่วไปเพื่อให้ผู้มีส่วนได้ส่วนเสียหลายรายนำกลับมาใช้ใหม่ได้

3. บัญชีแยกประเภทแบบกระจาย ความเป็นส่วนตัวที่แตกต่าง และการจำลองเสมือน ขจัดความจำเป็นในการคัดลอกข้อมูลทางกายภาพ บัญชีแยกประเภทแบบกระจายประกอบด้วยฐานข้อมูลแบบรวมศูนย์และแบบควบคุมที่ใช้งานได้ทั่วทั้งหน่วยธุรกิจและองค์กร ความเป็นส่วนตัวที่แตกต่างทำให้สามารถปกปิดข้อมูลเพื่อให้เป็นไปตามข้อกำหนดด้านการปฏิบัติตามข้อกำหนด ขณะเดียวกันก็แบ่งปันข้อมูลกับผู้มีส่วนได้ส่วนเสียไปพร้อมๆ กัน การจำลองเสมือนช่วยให้สามารถปั่นข้อมูลในสภาพแวดล้อมเสมือนจริงแทนที่จะเป็นทางกายภาพ

เมื่อซีไอโอและ CDO เข้าใจว่าต้นตอของปัญหาคือโครงสร้างพื้นฐานแบบเดิมที่สร้างไซโลข้อมูล พวกเขาอาจปรับปรุงสถาปัตยกรรมพื้นฐานและกลยุทธ์โครงสร้างพื้นฐานข้อมูลได้

ข้อมูลสกปรกจำกัดความสามารถขององค์กรในการตัดสินใจโดยใช้ข้อมูลและดำเนินการด้วยความแม่นยำและความคล่องตัว องค์กรต้องควบคุมข้อมูลของตนและส่งเสริมการทำงานร่วมกัน คุณภาพ และการเข้าถึงข้อมูล การทำเช่นนี้จะช่วยเพิ่มข้อได้เปรียบทางการแข่งขันและลบช่องโหว่ด้านความปลอดภัยและการปฏิบัติตามกฎระเบียบ

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/

ประทับเวลา: April 10, 2023

เพิ่มเติมจาก ข้อมูล

การสร้างกลยุทธ์คุณภาพข้อมูลที่ประสบความสำเร็จ – DATAVERSITY

ข้อมูล

โหนดต้นทาง: 2854562

ประทับเวลา: สิงหาคม 30, 2023

จริยธรรมและนวัตกรรม AI สำหรับการพัฒนาผลิตภัณฑ์

คลัสเตอร์ต้นทาง:

ข้อมูล

โหนดต้นทาง: 2625763

ประทับเวลา: May 3, 2023

เผยแพร่ซ้ำโดยเพลโต

การสร้างกลยุทธ์คุณภาพข้อมูลที่ประสบความสำเร็จ – DATAVERSITY

Couchbase Demo: ข้อกำหนดที่ขับเคลื่อนแอปพลิเคชันสมัยใหม่ – DATAVERSITY

อธิบายสถาปัตยกรรม Zero-Trust – DATAVERSITY

ท้าทายแรงโน้มถ่วงของข้อมูลเพื่อคลาวด์ที่ดีกว่า

SingleStore เปิดตัวความสามารถใหม่สำหรับแพลตฟอร์มข้อมูลเรียลไทม์ - DATAVERSITY

Data-Ed Slides: แนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดการข้อมูล

อาชีพของฉันในข้อมูล ตอนที่ 47: Evan Levy หุ้นส่วน ข้อมูลสำคัญ – DATAVERSITY

จริยธรรมและนวัตกรรม AI สำหรับการพัฒนาผลิตภัณฑ์

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้