人工智能会取代数据工程师吗?

人工智能会取代数据工程师吗?

简而言之:人工智能不会完全取代数据工程师;它会自动化一些重复性工作,例如编写 SQL、搭建管道、测试和文档编写。如果你的工作主要涉及责任较小、以工单驱动,那么人工智能带来的风险就更大;如果你负责可靠性、定义、治理和事件响应,那么人工智能主要的作用是提高你的工作效率。

要点总结:

所有权:优先考虑结果责任,而不仅仅是快速编写代码。

质量:构建测试、可观测性和契约,以确保管道的可靠性。

治理:保持隐私、访问控制、保留和审计跟踪由人负责。

防止误用:将人工智能的输出视为草稿;对其进行审查以避免出现明显的错误。

角色转变:减少编写样板代码的时间,增加设计持久耐用系统的精力。

人工智能会取代数据工程师吗?信息图

如果你在数据团队中待过超过五分钟,你就会听到这样一句话——有时是低声细语,有时则像剧情反转一样在会议上突然抛出:人工智能会取代数据工程师吗?

我明白了。人工智能可以生成 SQL、构建管道、解释堆栈跟踪、绘制数据库模型,甚至能以令人不安的自信推荐数据仓库模式。GitHub Copilot for SQL 关于数据库模型 GitHub Copilot
这感觉就像看着叉车学习杂耍。令人印象深刻,又有点吓人,而且你不太确定这对你的工作意味着什么😅

但事实远没有标题那么简单。人工智能正在彻底改变数据工程。它正在自动化那些枯燥乏味、重复性的工作。它正在加速那些“我知道自己想要什么,但记不住语法”的时刻。同时,它也正在催生出全新的混乱局面。.

所以,让我们理清思路,既不要盲目乐观,也不要恐慌地浏览负面新闻。.

您可能还想阅读以下文章:

🔗 人工智能会取代放射科医生吗?
图像处理人工智能如何改变工作流程、准确性和未来角色。.

🔗 人工智能会取代会计师吗?
看看人工智能可以自动完成哪些会计工作,哪些工作仍然需要人工完成。.

🔗 人工智能会取代投资银行家吗?
了解人工智能对交易、研究和客户关系的影响。.

🔗 人工智能会取代保险代理人吗?
了解人工智能如何改变承保、销售和客户支持。.


为什么“人工智能会取代数据工程师”这个问题总是反复出现😬

这种恐惧源于一个非常具体的原因:数据工程有很多可重复的工作

  • 编写和重构 SQL

  • 构建摄取脚本

  • 将字段从一个模式映射到另一个模式

  • 创建测试和基本文档

  • 调试那些……某种程度上可以预见的管道故障

人工智能特别擅长处理可重复的模式。而数据工程很大一部分工作正是如此——模式层层叠加。GitHub Copilot 代码建议

此外,工具生态系统本身就已经“隐藏”了复杂性:

所以当人工智能出现时,感觉就像是最后一块拼图。如果技术栈已经抽象化,人工智能也能编写粘合代码……那还剩下什么呢?🤷

但人们往往忽略了一点:数据工程并非仅仅是打字。打字很容易,难点在于如何让复杂多变、充满政治因素的商业现实像一个可靠的系统那样运行。

人工智能仍然难以应对这种模糊不清的情况。人类也面临同样的问题——只不过他们更擅长随机应变。.


数据工程师每天的真实工作内容(不为人知的真相)🧱

坦白说,“数据工程师”这个职位名称听起来好像你是在用纯数学制造火箭发动机。但实际上,你是在建立信任

典型的一天与其说是“发明新算法”,不如说是:

  • 与上游团队协商数据定义(虽然痛苦但必要)

  • 调查指标变化的原因(以及变化是否真实存在)

  • 处理模式漂移和“有人在午夜添加了一列”之类的意外情况

  • 确保管道具有幂等性、可恢复性和可观测性

  • 创建防护措施,防止下游分析师意外构建无意义的仪表盘。

  • 控制成本,别让你的仓库变成烧钱的火坑 🔥

  • 确保访问安全、审计、合规性、数据保留策略GDPR 原则(欧盟委员会) 存储限制(ICO)

  • 构建人们无需私信就能真正使用的数据产品 20 个问题

这项工作很大一部分是社交和运营方面的:

  • “这张桌子是谁的?”

  • “这个定义现在还有效吗?”

  • 为什么 CRM 系统会导出重复数据?

  • “我们能毫无尴尬地把这个指标发给高管吗?”😭

人工智能当然可以在某些方面提供帮助。但要完全取代人工……那就有点夸张了。.


优秀的数据工程师需要具备哪些素质?✅

这一部分很重要,因为关于人员更替的讨论通常假设数据工程师主要是“管道构建者”。这就像假设厨师主要是“切菜”一样。切菜是工作的一部分,但并非全部工作内容。.

一名优秀的数据工程师通常能够做到以下大部分工作:

  • 为变化而设计
    。数据会变,团队会变,工具也会变。优秀的工程师会构建不会因为现实的一点点变化就崩溃的系统🤧

  • 明确合同和预期。
    “客户”指的是什么?“活跃”指的是什么?如果数据行延迟到达会发生什么?合同比复杂的代码更能防止混乱。开放数据合同标准 (ODCS) ODCS (GitHub)

  • 将可观测性融入到所有环节,
    不仅仅是“运行了没有”,而是“运行是否正确”。新鲜度、成交量异常、空值爆炸、分布偏移等都是需要考虑的因素。数据可观测性(Dynatrace): 什么是数据可观测性?

  • 像成年人一样权衡取舍:
    速度与正确性、成本与延迟、灵活性与简易性。没有完美的流水线,只有你能接受的流水线。

  • 将业务需求转化为持久的系统。
    人们需要的是指标,但他们真正需要的是数据产品。人工智能可以编写代码,但它无法神奇地预​​知业务中的各种陷阱。

  • 让数据保持沉默。
    对数据平台来说,最高的赞誉莫过于无人提及。平静的数据才是好数据,就像管道系统一样,只有出现故障时才会被注意到。🚽

如果你正在做这些事情,那么“人工智能会取代数据工程师吗?”听起来就有点……不太合适了。人工智能可以取代任务,但不能取代所有权


人工智能已经在帮助数据工程师了(而且效果真的很棒)🤖✨

人工智能不仅仅是营销工具。如果运用得当,它能真正成为一种强大的力量倍增器。.

1) 更快的 SQL 和转换工作

  • 绘制复杂连接图

  • 编写你不想去思考的窗口函数

  • 将纯语言逻辑转换为查询框架

  • 将丑陋的查询重构为易读的 CTE(公用表表达式) GitHub Copilot for SQL

这意义重大,因为它减少了“空白页”效应。虽然仍然需要验证,但验证的起始点从 70% 变成了 0%。.

2)调试和根本原因分析

人工智能擅长:

  • 解释错误信息

  • 建议去哪里寻找

  • GitHub Copilot
    建议执行“检查模式不匹配”​​之类的步骤。这就像有个不知疲倦的初级工程师,从不睡觉,有时还会自信地撒谎😅

3)文档和数据目录丰富化

自动生成:

  • 列描述

  • 模型概要

  • 血统解释

  • “这张表是做什么用的?” dbt 文档

它并不完美,但它打破了没有文档化的管道的魔咒。.

4)测试脚手架并进行检查

人工智能可以提出:

再次强调——你仍然决定什么最重要,但这可以加快日常工作的速度。.

5)管道“粘合剂”代码

配置模板、YAML 脚手架、编排 DAG 草稿。这些东西重复性太高,而 AI 最讨厌重复性工作了🥣 Apache Airflow DAG


人工智能仍然面临挑战的地方(而这正是问题的核心所在)🧠🧩

这是最重要的部分,因为它用真实的质感回答了替换问题。.

1)定义模糊性和不断变化的情况

商业逻辑很少清晰明了。人们说话说到一半就改变主意。“活跃用户”变成了“活跃付费用户”,又变成了“活跃付费用户(不包括退款,但有时除外)”……你懂的。.

人工智能无法掌握这种模糊性,它只能猜测。.

2)问责制和风险

当管道出现故障,高管仪表盘显示错误信息时,必须有人来处理:

  • 分诊

  • 沟通影响

  • 修复它

  • 防止复发

  • 撰写尸检报告

  • 决定企业是否还能相信上周的数据。

人工智能可以提供帮助,但它无法真正承担责任。组织的运作并非依靠感觉,而是依靠责任。.

3)系统思维

数据平台是一个生态系统:包括数据摄取、存储、转换、编排、治理、成本控制和服务级别协议 (SLA)。任何一层的改变都会产生连锁反应。Apache Airflow 概念

人工智能可能会提出一些局部优化方案,但却造成全局性的弊端。这就像为了修好吱吱作响的门而把门拆掉一样😬

4) 安全、隐私、合规性

这里是替代幻想的坟墓。.

人工智能可以制定政策,但安全地实施这些政策却是一项真正的工程。.

5)“未知的未知”

数据安全事件往往难以预测:

  • 供应商 API 悄无声息地改变了语义

  • 时区假设发生改变。

  • 回填操作会复制一个分区

  • 重试机制会导致重复写入。

  • 新产品功能引入了新的事件模式

当情况并非已知模式时,人工智能的效能会降低。.


对比表:实际应用中哪些因素减少了哪些因素🧾🤔

以下是一个务实的观点。这里指的不是“取代人的工具”,而是能够简化某些任务的工具和方法。.

工具/方法 观众 价格氛围 为什么有效
AI 代码助手(SQL + Python 辅助工具) GitHub Copilot 编写大量代码的工程师 免费或半免费到付费 擅长搭建脚手架、重构和语法……有时会以一种非常特殊的方式自负。
Fivetran 管理型 ELT 连接器 团队厌倦了构建摄取系统 订阅 消除定制摄入疼痛,但以有趣的新方式打破常规
数据可观测性平台数据可观测性(Dynatrace) 任何拥有服务水平协议的人 中型到企业级 及早发现异常情况——就像管道烟雾报警器一样🔔
转换框架(声明式建模) dbt 分析 + 数据增强混合 通常工具+计算 使逻辑模块化和可测试,减少代码混乱。
数据目录 + 语义层dbt 语义层 存在指标混乱的组织 实际上,这取决于具体情况。 只需定义一次“真理”,即可减少无休止的指标争论。
使用模板进行编排Apache Airflow 平台型团队 开放运营成本 标准化工作流程;减少雪花状DAG
AI辅助文档生成 讨厌写文档的团队 价格低至中等 制作“足够好”的文档,以免知识消失。
自动化治理策略NIST 隐私框架 受监管的环境 企业级 有助于规则的执行——但仍然需要人来设计规则。

注意一下,少了一行:“按按钮移除数据工程师”。嗯……这一行不存在🙃


那么……人工智能会取代数据工程师,还是仅仅改变他们的角色?🛠️

答案比较简单:人工智能将取代部分工作流程,但不会取代整个职业。

但这重新定义这个角色。如果你忽视这一点,你就会感到压力。

变化内容:

  • 减少编写样板代码的时间

  • 减少查找文档的时间

  • 更多时间用于审查、验证和设计

  • 更多时间来定义合同和质量预期开放数据合同标准(ODCS)

  • 更多时间与产品、安全和财务部门合作

这就是微妙的转变:数据工程不再是“构建管道”,而是“构建可靠的数据产品系统”。

而令人意想不到的是,这反而更有价值,而不是更不值钱。.

另外——虽然这话听起来有点夸张——人工智能增加了能够产生数据产物的人数,这就需要有人来维护整个系统的秩序。更多的数据输出意味着更多的潜在混乱。GitHub Copilot

这就像给每个人都发了一把电钻。太棒了!现在需要有人来执行“请勿钻入水管”的规定🪠


即使人工智能无处不在,这套新的技能组合依然很有价值🧠⚙️

如果您想要一份实用且“面向未来”的清单,它看起来像这样:

系统设计思维

  • 能够经受住变化的数据建模

  • 批量处理与流式处理的权衡

  • 延迟、成本、可靠性思考

数据质量工程

治理与信任架构

平台思维

  • 可重用的模板,黄金路径

  • Fivetran dbt 数据测试的标准化摄取、转换和测试模式

  • 不会崩溃的自助式工具

沟通(没错,就是沟通)

  • 撰写清晰的文档

  • 对齐定义

  • 礼貌而坚定地说“不”

  • 解释权衡取舍时,语气不要像机器人一样生硬🤖

如果你能做到这些,“人工智能会取代数据工程师吗?”这个问题就不再那么令人担忧了。人工智能会成为你的外骨骼,而不是你的替代品。.


数据工程岗位缩减的现实场景📉

好了,现实是,并非事事都那么美好🎉

有些角色更容易受到关注:

  • 纯粹的仅数据摄取角色,所有连接器均为标准连接器,例如Fivetran 连接器

  • 团队主要执行重复性的报告流程,缺乏领域细微差别

  • 在某些组织中,数据工程师被视为“SQL猴子”(虽然残酷,但却是事实)。

  • 责任心低的岗位,工作内容只是处理工单和复制粘贴。

人工智能加上管理式工具可以减少这些需求。.

但即便如此,替换通常也是这样的:

  • 从事重复性工作的人数减少了

  • 更加重视平台所有权和可靠性

  • 向“一个人可以支持更多管道”的转变

所以,没错——人员配置模式会发生变化。角色会演变。职称会改变。这都是事实。.

不过,这种高所有权、高信任度的角色模式仍然存在。.


总结🧾✅

人工智能会取代数据工程师吗?不会像人们想象的那样彻底、干净利落地取代他们。

人工智能将:

但数据工程的本质在于:

人工智能可以为此提供帮助……但它并不“拥有”它。.

如果你是一名数据工程师,转型其实很简单(虽然不容易,但很简单):
专注于所有权、质量、平台思维和沟通。让 AI 处理繁琐的重复性工作,而你则专注于真正重要的部分。

没错——有时候这意味着要做房间里那个成熟稳重的人。虽然不光鲜亮丽,但却蕴含着强大的力量😄

人工智能会取代数据工程师吗?
它会取代一些工作,重新洗牌,并让最优秀的数据工程师更有价值。这才是真相。


常问问题

人工智能会完全取代数据工程师吗?

在大多数组织中,人工智能更有可能接管特定任务,而不是彻底取代某个角色。它可以加速 SQL 编写、管道搭建、文档初稿编写和基础测试创建。但数据工程也包含所有权和责任,以及将混乱的业务现实转化为可靠系统运行的艰巨工作。这些部分仍然需要人来判断“正确”的标准,并在出现问题时承担责任。.

人工智能已经在自动化数据工程的哪些部分?

人工智能在可重复性工作中表现最佳:例如编写和重构 SQL、生成数据库模型框架、解释常见错误以及生成文档大纲。它还可以搭建测试框架,例如空值检查或唯一性检查,并为编排工具生成模板“粘合”代码。其优势在于能够快速推进——你离最终的解决方案更近了一步——但你仍然需要验证其正确性并确保它适合你的环境。.

如果人工智能可以编写 SQL 和管道,那么数据工程师还能做什么呢?

工作内容繁多:定义数据契约、处理模式漂移、确保管道幂等、可观察且可恢复。数据工程师需要花费大量时间研究指标变化、为下游用户构建安全防护措施,以及权衡成本和可靠性。这项工作最终往往归结为建立信任,并保持数据平台的“稳定”,也就是说,平台要足够稳定,无需日常维护。.

人工智能如何改变数据工程师的日常工作?

它通常可以精简样板代码和“查找时间”,让您减少打字时间,将更多精力投入到审查、验证和设计中。这种转变促使您将工作重心从手动编写所有代码转向定义预期、质量标准和可重用模式。实际上,您可能需要与产品、安全和财务部门进行更多合作——因为技术产出更容易创建,但更难管理。.

为什么人工智能难以处理像“活跃用户”这样含义模糊的业务定义?

因为业务逻辑并非一成不变或精确无误——它会在项目进行过程中发生变化,并且因利益相关者而异。人工智能可以提出解释,但当定义演变或出现冲突时,它无法做出最终决定。数据工程通常需要协商、记录假设,并将模糊的需求转化为持久的合同。这种“人为协调”的工作是即使工具不断改进,数据工程这一角色仍然不可或缺的核心原因。.

人工智能能否安全地处理数据治理、隐私和合规性工作?

人工智能可以辅助制定政策或提出方案,但安全实施仍需真正的工程设计和严密的监督。治理涉及访问控制、个人身份信息处理、保留规则、审计追踪,有时还包括驻留限制。这些都是高风险领域,“差不多就行”是绝对不可接受的。必须由人来制定规则、验证执行情况,并对合规结果负责。.

随着人工智能技术的进步,哪些技能对数据工程师来说仍然很有价值?

提升系统韧性的关键技能包括:系统设计思维、数据质量工程和平台导向的标准化。当更多人能够快速生成数据工件时,合同、可观测性、事件响应机制和严谨的根本原因分析就显得尤为重要。沟通也成为制胜法宝——统一定义、编写清晰的文档以及以平和的方式解释权衡取舍,是确保数据可信度的重要组成部分。.

哪些数据工程岗位最容易受到人工智能和托管工具的影响?

专注于重复性数据摄取或标准报告流程的角色更容易受到冲击,尤其是在托管式 ELT 连接器覆盖大部分数据源的情况下。由于人工智能和抽象化降低了每个流程的工作量,低责任感、工单驱动型的工作可能会减少。但这通常表现为从事重复性任务的人员减少,而不是“数据工程师”的消失。以可靠性、质量和信任为核心的高责任感角色仍然能够保持稳定。.

如何在不造成混乱的情况下将 GitHub Copilot 或 dbt 等工具与人工智能结合使用?

将 AI 输出视为草稿,而非最终决策。利用它生成查询框架、提升代码可读性或搭建数据库测试和文档框架,然后使用真实数据和极端情况进行验证。同时,配合严格的规范:契约、命名标准、可观测性检查和审查机制。目标是在不牺牲可靠性、成本控制或治理的前提下,实现更快的交付速度。.

参考

  1. 欧盟委员会-数据保护详解:GDPR 原则- commission.europa.eu

  2. 英国信息专员办公室 (ICO) -存储限制- ico.org.uk

  3. 欧盟委员会-数据可以保存多久?是否需要更新? - commission.europa.eu

  4. 美国国家标准与技术研究院 (NIST) -隐私框架- nist.gov

  5. 美国国家标准与技术研究院计算机安全资源中心 (CSRC) - SP 800-92:计算机安全日志管理指南- csrc.nist.gov

  6. 互联网安全中心 (CIS) -审计日志管理(CIS 控制) - cisecurity.org

  7. Snowflake 文档-行访问策略- docs.snowflake.com

  8. Google Cloud 文档- BigQuery 行级安全性- docs.cloud.google.com

  9. BITOL -开放数据合同标准 (ODCS) v3.1.0 - bitol-io.github.io

  10. BITOL(GitHub) -开放数据合同标准- github.com

  11. Apache Airflow -文档(稳定版) - airflow.apache.org

  12. Apache Airflow - DAG(核心概念) - airflow.apache.org

  13. dbt Labs 文档-什么是 dbt? - docs.getdbt.com

  14. dbt Labs 文档-关于 dbt 模型- docs.getdbt.com

  15. dbt Labs 文档-文档- docs.getdbt.com

  16. dbt Labs 文档-数据测试- docs.getdbt.com

  17. dbt Labs 文档- dbt 语义层- docs.getdbt.com

  18. Fivetran 文档-入门指南- fivetran.com

  19. Fivetran -连接器- fivetran.com

  20. AWS 文档- AWS Lambda 开发人员指南- docs.aws.amazon.com

  21. GitHub - GitHub Copilot - github.com

  22. GitHub 文档-使用 GitHub Copilot 在 IDE 中获取代码建议- docs.github.com

  23. Microsoft Learn - GitHub Copilot for SQL(VS Code 扩展) - learn.microsoft.com

  24. Dynatrace 文档-数据可观测性- docs.dynatrace.com

  25. DataGalaxy -什么是数据可观测性? - datagalaxy.com

  26. 《远大前程》文档-预期概述- docs.greatexpectations.io

在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客