การจัดการความเป็นส่วนตัวและการกำกับดูแลข้อมูลในยุค AI

ในยุคที่ปัญญาประดิษฐ์ (Artificial Intelligence: AI) กำลังเปลี่ยนแปลงวิธีการทำงานขององค์กรทั่วโลก การจัดการด้านความเป็นส่วนตัวและการกำกับดูแลข้อมูล (Privacy and Data Governance) กลายเป็นประเด็นสำคัญที่ไม่อาจมองข้าม บทความนี้จะนำเสนอแนวทางที่จำเป็นสำหรับองค์กรในการจัดการความเสี่ยงด้าน AI (AI Risk) เพื่อสร้างความสมดุลระหว่างนวัตกรรมและการปกป้องข้อมูลส่วนบุคคล

กฎระเบียบด้านความเป็นส่วนตัวกับ AI

หลายประเทศทั่วโลกได้ออกกฎหมายคุ้มครองข้อมูลส่วนบุคคลที่มีผลกระทบโดยตรงและโดยอ้อมต่อการใช้งาน AI ตัวอย่างที่สำคัญได้แก่

GDPR (General Data Protection Regulation) - สหภาพยุโรป
- ระบุสิทธิของบุคคลที่จะไม่ถูกตัดสินใจโดยเทคโนโลยีอัตโนมัติ
- เน้นความโปร่งใสและความรับผิดชอบเพื่อให้การตัดสินใจของ AI สามารถอธิบายได้
CPRA (California Privacy Rights Act) - แคลิฟอร์เนีย, สหรัฐอเมริกา
- กำหนดให้ต้องเปิดเผยการใช้เทคโนโลยีตัดสินใจอัตโนมัติ
- มีฟังก์ชันให้ผู้ใช้ปฏิเสธการมีส่วนร่วม (Opt-out)
PIPL (Personal Information Protection Law) - จีน
- กำหนดให้ต้องแจ้งประชาชนเมื่อมีการใช้ระบบ AI ในการตัดสินใจ
- ต้องให้คำอธิบายเกี่ยวกับการตัดสินใจเมื่อมีการร้องขอ

หลักการสำคัญของความเป็นส่วนตัวและจริยธรรมในการใช้ AI

การกำกับดูแลข้อมูลและจริยธรรมด้าน AI มีหลักการร่วมกันหลายประการที่ปรากฏในข้อกำหนดด้านความเป็นส่วนตัวทั่วโลกได้แก่

ความโปร่งใส (Transparency) - แจ้งผู้ใช้เกี่ยวกับกระบวนการตัดสินใจของ AI และผลกระทบ
การยินยอม (Consent) - ขอความยินยอมที่ชัดเจนสำหรับการใช้ข้อมูลในระบบ AI
ความเป็นธรรมและความรับผิดชอบ (Fairness and Accountability) - ตรวจสอบให้แน่ใจว่าระบบ AI มีความเป็นกลางและตรวจสอบได้
การให้คำอธิบาย (Explanations) - ให้ข้อมูลที่มีความหมายเกี่ยวกับหลักการทำงานของการตัดสินใจบนพื้นฐานของ AI
ทางเลือกในการปฏิเสธ (Opt-out Options) - ให้บุคคลสามารถปฏิเสธการมีส่วนร่วมในกระบวนการตัดสินใจแบบอัตโนมัติ

การประเมินผลกระทบด้านการคุ้มครองข้อมูล (DPIA)

องค์กรที่ใช้โซลูชัน AI ในการประมวลผลข้อมูลส่วนบุคคลควรดำเนินการประเมินผลกระทบด้านการคุ้มครองข้อมูล (Data Protection Impact Assessment: DPIA) DPIA เป็นรูปแบบของการประเมินความเสี่ยงที่อธิบายไว้ใน GDPR โดยเฉพาะอย่างยิ่งเมื่อใช้เทคโนโลยีใหม่ เพื่อประเมินผลกระทบของการดำเนินการประมวลผลข้อมูลต่อการคุ้มครองข้อมูลส่วนบุคคล

การจัดประเภทข้อมูล (Data Classification)

การจัดประเภทข้อมูลอย่างมีประสิทธิภาพมีความสำคัญเมื่อใช้ข้อมูลสำหรับโซลูชัน AI เนื่องจากต้องใช้ข้อมูลจำนวนมาก หากไม่มีการจัดประเภทข้อมูลอย่างเหมาะสมก่อนการใช้งาน องค์กรอาจมีความเสี่ยงสูงขึ้นที่ข้อมูลจะไม่ได้รับการคุ้มครองอย่างเพียงพอหรืออาจละเมิดกฎหมายและข้อบังคับต่างๆ

การจัดประเภทข้อมูลควรกำหนดสิ่งต่อไปนี้

ความสำคัญของข้อมูล
เจ้าของข้อมูล
กระบวนการอนุญาตการเข้าถึง
ผู้รับผิดชอบในการอนุมัติสิทธิการเข้าถึงและระดับการเข้าถึง
ขอบเขตและความลึกของการควบคุมความปลอดภัยที่จำเป็น

ตัวอย่างของการจัดประเภทข้อมูลได้แก่

สาธารณะ (Public) - ข้อมูลที่เปิดเผยและเข้าถึงได้อย่างเสรี เช่น เอกสารการตลาดและข่าวประชาสัมพันธ์
ภายใน (Internal) - ข้อมูลที่จำกัดเฉพาะพนักงานที่ได้รับอนุญาตให้เข้าถึง เช่น แผนธุรกิจ แผนภูมิองค์กร และรายงาน
ความลับ (Confidential) - ข้อมูลส่วนตัวที่ต้องเก็บเป็นความลับ เช่น ข้อมูลทางการเงินที่ยังไม่ได้เผยแพร่ รายชื่อลูกค้า ข้อมูลบัตรเครดิต
จำกัด (Restricted) - ข้อมูลที่มีความอ่อนไหวสูง การเปิดเผยอาจนำไปสู่ข้อหาทางอาญาหรือค่าปรับทางกฎหมาย เช่น ข้อมูลที่เป็นความลับเฉพาะหรืองานวิจัยที่ได้รับการคุ้มครอง

การให้ความยินยอมด้านข้อมูล (Data Consent)

ความยินยอมคือการแสดงออกอย่างชัดเจนของบุคคลที่ให้ไว้โดยเฉพาะ มีการแจ้งให้ทราบ และไม่คลุมเครือ หรือการกระทำที่ยืนยันอย่างชัดเจนที่แสดงถึงการยินยอมให้ประมวลผลข้อมูลส่วนบุคคลของบุคคลนั้น

เมื่อเก็บข้อมูลส่วนบุคคลจากบุคคล องค์กรควร

ขอความยินยอมที่เหมาะสม ไม่ว่าจะโดยนัยหรือโดยชัดแจ้ง ตามที่กฎระเบียบกำหนดเกี่ยวกับการเก็บรวบรวม การใช้ และการเปิดเผยข้อมูลส่วนบุคคล
ตรวจสอบให้แน่ใจว่าได้รับความยินยอมที่เหมาะสมและจำเป็น:
- ก่อนเริ่มกิจกรรมการเก็บรวบรวม
- ก่อนใช้ข้อมูลส่วนบุคคลเพื่อวัตถุประสงค์นอกเหนือจากที่เก็บรวบรวมไว้ในตอนแรก
- ก่อนการถ่ายโอนข้อมูลส่วนบุคคลไปยังบุคคลที่สามหรือเขตอำนาจอื่น

การอนุญาตใช้ข้อมูล (Data Licensing)

เนื่องจากต้องใช้ข้อมูลจำนวนมากในการฝึกและสร้างโซลูชัน AI ผู้พัฒนา AI จึงใช้ประโยชน์จากเนื้อหาที่มีอยู่บนอินเทอร์เน็ต ชุดข้อมูลเหล่านี้มักมีให้บริการผ่านใบอนุญาตข้อมูลเปิด (เช่น ใบอนุญาต Creative Commons) อย่างไรก็ตาม มีการเพิ่มข้อจำกัดอย่างรวดเร็วในแหล่งข้อมูลการฝึก "ฟรี" แบบดั้งเดิม

ข้อควรพิจารณาเมื่อวางแผนใช้ข้อตกลงการอนุญาตใช้ข้อมูล

ความเป็นเจ้าของข้อมูล - หน่วยงานที่เข้าร่วมในข้อตกลงการอนุญาตใช้ข้อมูลควรตรวจสอบให้แน่ใจว่ามีการกำหนดความเป็นเจ้าของข้อมูลนำเข้าและผลลัพธ์อย่างชัดเจน
ข้อจำกัดการอนุญาต - ข้อตกลงการประมวลผลข้อมูลควรระบุสิทธิและข้อจำกัดเกี่ยวกับวิธีการใช้ข้อมูลอย่างชัดเจน
จริยธรรมและการปฏิบัติตามกฎหมาย - หน่วยงานควรตรวจสอบให้แน่ใจว่าเข้าใจถึงนัยทางจริยธรรมและกฎหมายของข้อมูลผ่านการประเมินความเสี่ยงอย่างเป็นทางการและการกำกับดูแลข้อมูล

การเก็บรวบรวม ใช้งาน และเปิดเผยข้อมูล (Collection, Use, and Disclosure)

หนึ่งในองค์ประกอบที่สำคัญที่สุดของกระบวนการ ML หากไม่ใช่ที่สำคัญที่สุด คือข้อมูล ขั้นตอนแรกในวงจรชีวิตการเตรียมข้อมูลคือการเก็บรวบรวมข้อมูล การเก็บรวบรวมข้อมูลเป็นไปตามปัญหาเฉพาะที่ต้องแก้ไขหรือคำถามที่โมเดล ML มุ่งที่จะตอบ

เนื่องจากผลกระทบทางกฎหมายและข้อพิจารณาด้านจริยธรรมเกี่ยวกับความเป็นส่วนตัวของข้อมูลที่เพิ่มขึ้น การเก็บรวบรวมข้อมูลจึงต้องดำเนินการอย่างระมัดระวัง ประเด็นต่างๆ เช่น การเก็บข้อมูลจากเว็บ การเก็บข้อมูลโดยไม่ได้รับความยินยอม และการจัดการข้อมูลที่ละเอียดอ่อนล้วนเป็นหัวข้อที่มีการถกเถียงกันอย่างมากซึ่งต้องการการปฏิบัติตามกรอบกฎหมายและแนวทางจริยธรรม

ความกังวลหลักจากมุมมองด้านความเป็นส่วนตัวควรมุ่งเน้นที่ข้อมูลส่วนบุคคล ตามมาตรา 5(1)(b) ของ GDPR ระบุว่า

"ข้อมูลส่วนบุคคลจะต้องถูกเก็บรวบรวมเพื่อวัตถุประสงค์ที่ระบุไว้อย่างชัดเจนและชอบด้วยกฎหมาย และไม่ถูกประมวลผลเพิ่มเติมในลักษณะที่ไม่สอดคล้องกับวัตถุประสงค์เหล่านั้น การประมวลผลเพิ่มเติมเพื่อวัตถุประสงค์ในการเก็บถาวรเพื่อประโยชน์สาธารณะ วัตถุประสงค์ในการวิจัยทางวิทยาศาสตร์หรือประวัติศาสตร์ หรือวัตถุประสงค์ทางสถิติ ตามมาตรา 89(1) จะไม่ถือว่าไม่สอดคล้องกับวัตถุประสงค์เริ่มต้น"

ประเภทของข้อมูล (Types of Data)

ข้อมูลสามารถจำแนกได้เป็นหลายประเภท ซึ่งสามารถแบ่งเป็นสองกลุ่มหลัก:

ข้อมูลเชิงคุณภาพ (Qualitative Data) - ข้อมูลเชิงหมวดหมู่
- ข้อมูลนามบัญญัติ (Nominal) - การเรียกชื่อ/การติดฉลาก เช่น ชาย/หญิง, สีตา
- ข้อมูลเรียงลำดับ (Ordinal) - ลำดับของข้อมูลโดยไม่มีความหมายอื่น เช่น A, B, C หรือ 1, 2, 3
ข้อมูลเชิงปริมาณ (Quantitative Data) - ข้อมูลเชิงตัวเลข
- ข้อมูลต่อเนื่อง (Continuous) - ชุดของค่า/ช่วง เช่น ฮิสโตแกรม, จุดข้อมูลที่เชื่อมต่อกันบนกราฟการกระจาย
- ข้อมูลไม่ต่อเนื่อง (Discrete) - รายการที่นับได้, จำนวนเต็ม เช่น แผนภูมิแท่ง, จุดข้อมูลที่ติดฉลากบนกราฟฟังก์ชัน

การทำความสะอาดและการเก็บรักษาข้อมูล (Data Cleansing and Retention)

เมื่อเก็บรวบรวมข้อมูลดิบแล้ว ขั้นตอนต่อไปคือการทำความสะอาดข้อมูล ซึ่งเรียกอีกอย่างว่าการชำระล้างข้อมูลหรือการขัดข้อมูล กระบวนการนี้เกี่ยวข้องกับการระบุและแก้ไขข้อผิดพลาด ความไม่สอดคล้อง และความไม่ถูกต้องภายในชุดข้อมูลดิบ

การทำความสะอาดข้อมูลเกี่ยวข้องกับงานต่างๆ รวมถึง

การจัดการค่าที่หายไป - ข้อมูลดิบอาจมีค่าที่หายไปหรือบันทึกที่ไม่สมบูรณ์
การลบข้อมูลซ้ำ - บันทึกซ้ำสามารถสร้างอคติและบิดเบือนการวิเคราะห์
การแก้ไขความไม่สอดคล้อง - ข้อมูลดิบอาจมีความไม่สอดคล้องกัน เช่น ความแตกต่างในการใช้ตัวพิมพ์ใหญ่ การสะกดคำ หรือการจัดรูปแบบ
การแก้ไขข้อผิดพลาดในการป้อนข้อมูล - ข้อผิดพลาดในการป้อนข้อมูล เช่น พิมพ์ผิดหรือค่าที่ไม่ถูกต้อง
การตรวจจับและจัดการค่าผิดปกติ - ค่าผิดปกติคือจุดข้อมูลที่เบี่ยงเบนอย่างมีนัยสำคัญจากบรรทัดฐาน

องค์กรในสหราชอาณาจักรได้ระบุหกมิติสำคัญสำหรับการวัดคุณภาพข้อมูล

ความครบถ้วน (Completeness) - สัดส่วนของข้อมูลที่จัดเก็บเทียบกับศักยภาพของ "100% ครบถ้วน"
ความเป็นเอกลักษณ์ (Uniqueness) - ข้อกำหนดที่จะไม่มีการบันทึกมากกว่าหนึ่งครั้งตามวิธีการระบุสิ่งนั้น
ความทันต่อเวลา (Timeliness) - ระดับที่ข้อมูลแสดงถึงความเป็นจริง ณ จุดเวลาที่ต้องการ
ความถูกต้องตามรูปแบบ (Validity) - ข้อมูลมีความถูกต้องหากสอดคล้องกับไวยากรณ์ (รูปแบบ, ประเภท, ช่วง) ของคำจำกัดความ
ความแม่นยำ (Accuracy) - ระดับที่ข้อมูลอธิบายวัตถุหรือเหตุการณ์ที่อธิบายได้อย่างถูกต้อง
ความสอดคล้อง (Consistency) - การไม่มีความแตกต่างเมื่อเปรียบเทียบการแสดงตั้งแต่สองตัวขึ้นไปของสิ่งเดียวกันกับคำจำกัดความ

การจัดกลุ่มข้อมูล (Data Clustering)

โมเดล ML แบบไม่มีผู้สอน (Unsupervised ML models) จัดประเภทข้อมูลโดยใช้การจัดกลุ่มข้อมูลด้วยการจัดกลุ่มข้อมูลที่ไม่มีการติดฉลากเป็นชุดย่อยหรือกลุ่ม อัลกอริทึมจัดกลุ่มจุดข้อมูลโดยการหาความคล้ายคลึงกันระหว่างจุดข้อมูลเหล่านั้นและความแตกต่างในจุดข้อมูลในกลุ่มอื่นๆ

หมวดหมู่หลักกว้างๆ ของวิธีการจัดกลุ่มคือ

การจัดกลุ่มแบบแข็ง (Hard Clustering) หรือการจัดกลุ่มแบบพิเศษ (Exclusive Clustering)
- แต่ละจุดข้อมูลสามารถอยู่ได้เพียงกลุ่มเดียวเท่านั้น
- K-means เป็นตัวอย่างทั่วไปของประเภทนี้ โดยที่ค่า K แทนจำนวนกลุ่มที่แตกต่างกันที่ข้อมูลถูกแบ่งออก
- ดูได้จากภาพประกอบในเอกสารอ้างอิงที่ https://medium.com/geekculture/fuzzy-c-means-clustering-fcm-algorithm-in-machine-learning-e3e58f9c13c1
การจัดกลุ่มแบบอ่อน (Soft Clustering)
- แต่ละจุดข้อมูลถูกเชื่อมโยงกับความน่าจะเป็นเชิงตัวเลขตั้งแต่ 0 ถึง 1
- ใช้เพื่อเชื่อมโยงจุดข้อมูลที่เป็นของแต่ละกลุ่ม กำหนดระดับของสมาชิกของแต่ละจุดที่มีต่อกลุ่ม
- Fuzzy C-means (FCM) เป็นตัวอย่างของการจัดกลุ่มประเภทนี้ โดยที่คำว่า "fuzzy" หมายถึงข้อเท็จจริงที่ว่าแต่ละจุดข้อมูลอยู่ในหลายกลุ่มแทนที่จะอยู่ในกลุ่มเดียวเท่านั้น

เมื่อใช้การจัดกลุ่ม ผู้พัฒนา AI ต้องตรวจสอบให้แน่ใจว่ามีปริมาณการมีส่วนร่วมของมนุษย์ที่เหมาะสม โมเดล ML แบบไม่มีผู้สอนที่ไม่มีการตรวจสอบสามารถเพิ่มโอกาสที่จะเกิดอคติ ซึ่งอาจนำไปสู่การขาดความไว้วางใจในโซลูชัน AI ความรับผิดชอบต่อการตัดสินใจที่ทำโดยใช้การจัดกลุ่มตามหลัก AI ต้องได้รับการกำหนดอย่างชัดเจนและสร้างความรับผิดชอบ

ความเสี่ยงด้านความเป็นส่วนตัวในการใช้ AI

ทั้ง ML และ AI สัญญาว่าจะมีความแม่นยำมากขึ้นในการทำนายผลลัพธ์ที่น่าจะเกิดขึ้นอย่างรวดเร็วจากข้อมูลโดยไม่จำเป็นต้องออกแบบการทดลองอย่างชัดเจน ตัวอย่างของประโยชน์ที่อาจเกิดขึ้นรวมถึงการปรับปรุงกระบวนการทางธุรกิจโดยอัตโนมัติและการทำนายแนวโน้มสำหรับพฤติกรรมผู้บริโภค อย่างไรก็ตาม ความเสี่ยงด้านความเป็นส่วนตัวอาจเกิดขึ้นเมื่อมีการใช้ชุดข้อมูลที่มีความละเอียดอ่อนในการฝึกโมเดล ML

ความกังวลด้านความเป็นส่วนตัวของข้อมูล (Data Privacy Concerns)

ความกังวลด้านความเป็นส่วนตัวของข้อมูลใน AI เกิดจากการใช้ชุดข้อมูลขนาดใหญ่ ซึ่งมักประกอบด้วยข้อมูลที่ละเอียดอ่อนหรือข้อมูลส่วนบุคคล เพื่อฝึกและดำเนินการระบบ AI

แก่นของความกังวลด้านความเป็นส่วนตัวคือความสามารถของโมเดล ML ในการ "จดจำ" ข้อมูลผ่านการตอบสนองสะสมต่อคำถาม ผลลัพธ์คือความเสี่ยงต่อการอนุมาน ซึ่งผู้โจมตีอาจใช้ประโยชน์โดยอาจ:

การอนุมานสมาชิก (Membership Inference) - ตรวจสอบว่าตัวอย่างเฉพาะอยู่ในชุดข้อมูลการฝึกหรือไม่
การอนุมานคุณลักษณะ (Attribute Inference) - ระบุคุณลักษณะที่มีความละเอียดอ่อนที่เจ้าของข้อมูลอาจมี

การป้องกันที่มีอยู่ต่อการโจมตีเหล่านี้ต้องเผชิญกับอุปสรรคที่เกิดจากการทำงานที่ขัดแย้งกับเป้าหมายของ ML สาเหตุที่การอนุมานเป็นไปได้ก็เพราะโมเดลแสดงพฤติกรรมที่เหมาะสมที่สุดเมื่อได้รับข้อมูลนำเข้าที่สอดคล้องกับข้อมูลการฝึก การป้องกันใหม่ที่อิงแนวคิดซึ่งจะหลีกเลี่ยงข้อเสียเหล่านี้ได้รับการเสนอ โดยหลายแนวคิดได้รับการพัฒนาแล้ว

อย่างไรก็ตาม การป้องกันที่ดีที่สุดต่อการโจมตีประเภทนี้อาจยากที่จะทำให้สำเร็จในทางปฏิบัติมากกว่าที่ทฤษฎีแนะนำไว้

สำหรับองค์กรที่ใช้ ML หรือ AI ในการประเมินข้อมูลที่ละเอียดอ่อน ข้อควรพิจารณาที่สำคัญที่สุดอาจเป็นความรับผิดต่อการอนุมานที่สำเร็จ นี่เป็นหนึ่งในด้านที่ CPRA และ GDPR มีความแตกต่างกัน กฎหมายของแคลิฟอร์เนียพิจารณาการอนุมานอย่างชัดเจน แต่ความกังวลเกี่ยวกับการอนุมานไม่ได้มีอยู่ทั่วไปเมื่อมีการร่างกฎระเบียบของสหภาพยุโรป องค์กรที่ประมวลผลข้อมูลที่ละเอียดอ่อนควรสร้างความสมดุลระหว่างประสิทธิภาพที่อาจเกิดขึ้นจาก ML และ AI กับบทลงโทษที่อาจเกิดขึ้นจากการไม่ปฏิบัติตามกฎหมายและข้อบังคับด้านความเป็นส่วนตัวในเขตอำนาจของตน

ข้อจำกัดของข้อมูล (Data Limitations)

ข้อกำหนดในการจำกัดข้อมูลควรได้รับการกำหนดโดยวัตถุประสงค์ของข้อมูล ซึ่งเป็นส่วนหนึ่งของกระบวนการกำหนดข้อกำหนดของข้อมูล เป้าหมายไม่ใช่เพื่อป้องกันการเข้าถึงข้อมูล กรณีการใช้งานที่ถูกต้องควรได้รับการสนับสนุนให้มากที่สุดเท่าที่เป็นไปได้ภายในระดับความเสี่ยงที่ยอมรับได้

องค์กรสามารถคาดการณ์และจัดการความเสี่ยงด้านความเป็นส่วนตัวได้ดีที่สุดโดยติดตามว่าประเภทข้อมูลใดบ้างที่ใช้โดยกระบวนการใดบ้าง ในกรณีที่เป็นไปได้ ผู้ดูแลความเป็นส่วนตัวควรพัฒนา นำมาใช้ใหม่ และจัดการกฎมาตรฐานสำหรับการจำกัดข้อมูลในที่เก็บข้อมูลเมตาดาต้า

การแบ่งปันข้อมูลนอกองค์กรสร้างความกังวลพิเศษ เป็นเรื่องปกติที่ข้อตกลงการแบ่งปันข้อมูลจะรวมภาษาที่บังคับให้ผู้รับปกป้องข้อมูลในลักษณะเดียวกับผู้ให้บริการ และอาจมีการกำหนดบทลงโทษสำหรับการไม่ปฏิบัติตาม อย่างไรก็ตาม แม้ในกรณีเช่นนี้ การแบ่งปันก็สร้างความเสี่ยงเพิ่มเติม และการถ่ายโอนความเสี่ยงไม่มีความครอบคลุม ในกรณีที่มีการละเมิดข้อมูล องค์กรที่ให้ข้อมูลมีแนวโน้มที่จะได้รับบทลงโทษโดยไม่คำนึงถึงข้อตกลงที่อาจมีอยู่

วิศวกรด้านความเป็นส่วนตัวควรหาวิธีระบุและตรวจสอบการควบคุมที่ผู้รับมีอยู่ (ทั้งทางเทคนิคและการบริหาร) ก่อนที่จะอนุญาตให้แบ่งปันข้อมูลนอกองค์กร เทคโนโลยีการจัดการสิทธิ์ดิจิทัล (Digital Rights Management: DRM) สามารถมีประโยชน์ในการจำกัดหรือป้องกันการถ่ายโอนข้อมูลที่ไม่ได้รับอนุญาตนอกองค์กร

องค์กรต้องรวบรวมบัญชีรายการโดยละเอียดเพื่อควบคุมข้อมูล สินทรัพย์ข้อมูล และทรัพยากรอย่างมีประสิทธิภาพ การสร้างรายการนี้เป็นขั้นตอนแรกในการจัดประเภทสินทรัพย์และกำหนดระดับการป้องกันที่แต่ละรายการต้องการ หลังจากสร้างรายการและการจัดประเภทเริ่มต้นแล้ว ต้องมีการตรวจสอบและปรับปรุงบัญชีรายการอย่างสม่ำเสมอ และต้องมีการทบทวนการจัดประเภทเพื่อความเหมาะสม

สินทรัพย์ข้อมูลมีระดับความละเอียดอ่อนและความสำคัญที่แตกต่างกันในการบรรลุวัตถุประสงค์ทางธุรกิจ โดยการกำหนดการจัดประเภทหรือระดับของความละเอียดอ่อนและความสำคัญให้กับทรัพยากรข้อมูลและการกำหนดกฎความปลอดภัยเฉพาะสำหรับการจัดประเภทแต่ละประเภท เป็นไปได้ที่จะกำหนดระดับการควบคุมการเข้าถึงที่ควรนำไปใช้กับสินทรัพย์ข้อมูลแต่ละรายการ

โซลูชัน AI ไม่ได้ลบความรับผิดชอบในการเป็นเจ้าของข้อมูลออกจากพนักงาน ข้อมูลที่ใช้โดยโซลูชัน AI ต้องได้รับความเข้าใจและได้รับการอนุมัติให้ใช้โดยเจ้าของข้อมูล ผลลัพธ์ข้อมูลจากโซลูชัน AI ต้องมีความเป็นเจ้าของที่ชัดเจนด้วย เนื่องจากเจ้าของข้อมูลต้องสามารถเข้าใจข้อมูลที่กำลังสร้างขึ้น การนำแนวคิดเช่นความสามารถในการอธิบายมาใช้จึงมีความสำคัญสำหรับโซลูชัน AI แบบสร้าง (generative AI)

ปริมาณข้อมูล (และเมตาดาต้า) จำนวนมากที่โซลูชัน AI สามารถประมวลผลได้สร้างความเสี่ยงที่ไม่เหมือนใครต่อแนวปฏิบัติการกำกับดูแลข้อมูลแบบดั้งเดิม ควรใช้การลดข้อมูลให้เหลือน้อยที่สุดเพื่อให้แน่ใจว่าโซลูชัน AI เข้าถึงเฉพาะปริมาณข้อมูลขั้นต่ำที่จำเป็นในการปฏิบัติตามวัตถุประสงค์ที่ได้รับอนุมัติ ตัวอย่างเช่น เทคนิคเช่นการปกปิดข้อมูลหรือการแปลงเป็นโทเค็นสามารถใช้เพื่อลดปริมาณข้อมูลที่มีความละเอียดอ่อนที่นำเข้าและอาจส่งออกโดยโซลูชัน AI