• <bdo id="k6k2k"><center id="k6k2k"></center></bdo>
    <td id="k6k2k"></td>
    <bdo id="k6k2k"><center id="k6k2k"></center></bdo>
    機房360首頁
    當前位置:首頁 ? 應用安全 ? 數據安全:提高數據質量的優秀實踐

    數據安全:提高數據質量的優秀實踐

    來源:51CTO 作者: 更新時間:2022/5/17 8:52:10

    摘要:數據科學家大部分時間都在清理在這個關鍵階段被忽視的數據集,不僅浪費了寶貴的時間,而且還產生了另一個問題。

      數據通常被描述為新油,但與種植精致水果相比,確保數據質量更好。就像一棵果樹一樣,數據質量需要從源頭上得到滋養。這就是為什么無法在數據倉庫中解決數據質量問題的原因。

      數據科學家大部分時間都在清理在這個關鍵階段被忽視的數據集,不僅浪費了寶貴的時間,而且還產生了另一個問題。

      當稍后清理數據時,會做出許多可能扭曲結果的假設。然而,數據科學家別無選擇,只能做出這些假設。這就是為什么數據治理對提高數據質量非常重要。

      談到質量,數據不像油,而是像更水果,質量需要在源頭和運輸過程中得到培養。數據質量無法在數據倉庫中修復。

      獨立用戶的問題在于傾向于將精力集中在受影響最大的領域。例如,項目經理可能更關心 IT 資產管理流程中的低效率,而 CFO 可能會向董事會或股東提交報告,并發現缺少重要數據。

      為什么數據質量會受到影響?

      可以使用幾個相互關聯的參數來確定數據的質量。這些參數包括數據的一致性、及時性或相關性、準確性和完整性。

      質量差的數據有兩個關鍵原因。第一個與源系統有關,第二個發生在分析階段。

      源系統

      當組織在沒有適當控制或標準化流程的情況下收集數據時,可能會出現問題。這些問題發生在四個核心領域:

      (1) 采集期間:數據采集是質量控制過程的重要組成部分。這個初始步驟可以為質量差的數據集設置路線。

      例如,如果在此階段錯誤地輸入了電話號碼,那么在數據旅程的后期,此信息可能會與其他系統中的記錄發生沖突,從而很難確認客戶的身份。

      (2) 轉換期間:隨著數據從用戶傳遞到用戶和系統傳遞到系統,被轉換。例如,當一個流程沒有正確記錄時,就不可能有效地跟蹤這些數據的沿襲,結果,數據的質量就會受到影響。

      想象一個場景,會計記錄從財務部門的一名工作人員傳遞給另一名工作人員。如果第一位員工在轉移記錄之前未能更新記錄,他們可能會無意中讓客戶跳過到期付款。

      (3) 由于時效性::即使數據捕獲階段產生了高質量的數據,隨著時間的推移,它也可能會減少。例如,有人可能會在捕獲數據時提供正確的地址或職位,但如果同一個人改變了他們的工作或地址,則必須更新這些字段。

      (4) 由于不一致的流程和標準:當您使用不同標準從不同系統捕獲數據時會發生這種情況。例如,當您在一個系統中捕獲計量單位時,您可能會使用 EA 或 LB 之類的代碼。在另一個系統中,可能會使用不同的標準,例如 EACH 或 POUND。

      以國家代碼的類比來更詳細地解釋其中一些問題。許多系統要求用戶輸入國家代碼以完成注冊文件、進行預訂等。在某些情況下,用戶需要手動輸入這些代碼,而不是從預先建立的列表中選擇一個選項。

      問題是,不能保證每個用戶都會輸入相同的信息。事實上,這幾乎是不可能的。當要求人們獨立鍵入此信息時,會無意中為同一個國家/地區創建許多代碼,并且系統將充滿相互沖突的數據點。

      分析階段

      由于多種原因,數據質量可能會在分析階段受到影響。例如,字段可能被錯誤地映射,或者用戶可能根據數據做出錯誤的假設。

      這種缺乏連貫性和標準的缺失也會影響數字化轉型。當公司合并時——糟糕的數據質量使這些合并變得困難。如果沒有定義標準或常見問題,數據質量就會成為一個大問題。

      當數據質量不完美時,它就會變得不可信,從而難以說服員工將其用于數據驅動的計劃。

      為什么需要獨立的數據質量經理?

      正如文章開頭提到的,數據質量是數據治理計劃的核心成果。因此,數據治理團隊、小組和部門的一個關鍵問題是提高數據的整體質量。但是有一個問題:協調。

      如果與來自不同部門的不同人談論數據質量,總會得到不同的回應。例如,如果詢問 ETL 開發人員他們如何衡量數據質量,他們可能會依賴一組特定的參數或規則來確保他們輸入的數據符合要求。

      如果源頭質量不好,他們就不太可能舉報,甚至不會將其視為他們的擔憂?;蛘?,如果與處理 CRM 系統的人交談,他們將關注數據的一致性,因為他們無法匹配系統中的沖突術語。簡而言之,每個人都從不同的角度看待數據質量。

      由于大多數數據質量問題是由于跨多個應用程序的集成和數據轉換問題而發生的,因此擁有一個獨立的數據質量經理或數據治理經理來負責提高整個組織的數據質量非常重要。

      因為有很多相互矛盾的意見,需要一個獨立的機構來調解和實施全公司范圍內的數據質量改進工作,沒有偏見,并且基于重要性等級。該主體可以是數據治理經理或組。

      為了有效地解決數據質量問題,需要確定優先級。應根據業務影響、流行程度和數據質量問題的復雜性等參數對這些問題進行優先級排序。

      數據質量改進生命周期

      每個人的個人數據質量問題對該個人都非常重要。但是,為了避免迷失在問題的海洋中,需要確定優先級。應根據業務影響、普遍性和數據質量問題的復雜性等參數對數據質量問題進行優先級排序。這能夠有效地解決這些問題。

      以下是用于提高數據質量的久經考驗的策略:數據質量改進生命周期。

      1. 定義

      第一步是定義數據質量標準。這些標準將成為努力實現的基準。此步驟能夠設定目標并建立關于如何提高數據質量最終發展業務的愿景。

      例如,每次捕獲社會安全號碼時,都應該捕獲九位數字?;蛘?,每次收集電子郵件地址時,請確保輸入兩次作為輔助確認步驟。

      2. 收集

      接下來,需要使用框架記錄組織中的所有數據質量問題,以定位數據質量問題。有兩種方法可以成功地做到這一點。首先是在公司內部創建一個數據素養計劃。

      一旦組織內建立了廣泛的素養,就可以建立一個報告機制,用戶可以去那里交流他們的數據質量問題。此步驟的唯一目標是從所有來源收集數據質量問題,以便數據治理組將列出必須解決的問題。

      捕獲數據質量問題時,必須記錄以下信息:

      商業價值

      問題所在

      問題是什么

      優先級(從客戶的角度)

      一旦在組織內建立了廣泛的數據素養,就可以建立一個報告機制,用戶可以去那里交流他們的數據質量問題。

      3. 優先

      下一部分是開發一種機制,幫助我們了解這些數據質量問題對業務的影響。這是數據治理經理需要做的最重要的任務。他們在評估中必須考慮以下幾點:

      商業價值

      主要原因分析

      解決問題的大致努力

      更換管理層

      此過程使治理團隊能夠有效地確定問題的優先級。這種優先排序過程通常會造成瓶頸,因為很難做出一致的決定。

      以國家代碼為例,不同的系統可能有不同的選擇,要做出決定,需要有一個框架,而這個框架的核心是一個數據治理委員會。該委員會應由組織中所有不同業務部門的領導組成。

      當數據治理經理提出問題時,需要將其提交給委員會進行評估。他們將根據包括成本/收益比和業務影響在內的許多因素來權衡問題。

      當做出關鍵的數據質量決策時,需要對業務流程進行某種更改。實質上會導致額外的工作和支出,因此需要在跨部門、公正、委員會層面做出決定。

      4. 分析

      一旦確定了問題并確定了優先級,負責批準和解決問題的人員需要進行進一步的根本原因分析。這個過程涉及提出問題,例如每個問題的根源來自哪里。問題的真正原因是什么?

      使用國家代碼示例,需要確定這個無效字段是如何導致數據質量問題的。問題的根源是用戶手動輸入代碼,還是因為公司購買數據而無法控制?

      5. 改進

      解決數據質量問題有四種關鍵方法:

      可以通過直接使用源代碼并在那里進行相關更改來手動修復問題。

      可以在 ETL 管道中進行更改。為此,需要開發代碼來決定如何通過已安裝的集成處理數據,也稱為 ETL 邏輯。

      另一種選擇是對特定流程進行更改。例如,在國家代碼字段中選擇數據的過程會發生變化??梢蕴砑右粋€下拉菜單,而不是要求用戶手動輸入國家/地區代碼,這樣就別無選擇,只能選擇的國家/地區選擇正確的代碼。

      第四種方法稱為主數據和參考數據管理。當缺少主數據時,明確定義的數據質量問題會很明顯。例如,可能需要手動輸入客戶名稱字段,因為沒有正確的主數據,所以沒有其他方法。

      一種常見的主數據管理解決方案是創建一個存儲所有主數據的地方,其他系統可以使用密鑰來引用這些數據。主數據管理需要大量資金并且可能相當復雜,但它非常有效。

      參考數據通常是主數據可以參考的列表。與主數據不同,往往是相對靜態的。采取措施管理參考數據,例如訪問控制和關系映射,也將有助于提高數據質量。

      6. 控制

      該過程的最后一步是編寫一組數據質量規則。這將確保如果再次出現此問題,則會創建通知或票證來解決問題。

      通過這樣的通知,可以更輕松地快速處理問題,而不必咨詢多個人并進行復雜的分析。

      責任編輯:張華

    機房360微信公眾號訂閱
    掃一掃,訂閱更多數據中心資訊

    本文地址:http://www.hedgehogfx.com/news/2022517/n5080145882.html 網友評論: 閱讀次數:
    版權聲明:凡本站原創文章,未經授權,禁止轉載,否則追究法律責任。
    轉載聲明:凡注明來源的文章其內容和圖片均為網上轉載,非商業用途,如有侵權請告知,會刪除。
    相關評論
    正在加載評論列表...
    評論表單加載中...
    • 我要分享
    推薦圖片
    国产精品成人va,久久伊人精品青青草原高清,老师爽到高潮潮喷视频大全
  • <bdo id="k6k2k"><center id="k6k2k"></center></bdo>
    <td id="k6k2k"></td>
    <bdo id="k6k2k"><center id="k6k2k"></center></bdo>