您在此处:
适用于传统 SQL 连接的 Google BigQuery
使用 Google BigQuery 连接器创建远程连接,将数据从 Google BigQuery 同步到 CRM Analytics。
连接要求
您用来连接到 Google Big Query 的服务帐户必须具有标准角色“BigQuery 数据查看器”和具有这些权限的自定义角色。
- bigquery.jobs.create
- bigquery.jobs.get
- bigquery.jobs.list
- bigquery.jobs.listAll
- bigquery.jobs.update
- bigquery.tables.create
- bigquery.tables.delete
- bigquery.tables.update
- bigquery.tables.updateData
- storage.buckets.list
帐户创建功能可生成帐户属性的 JSON 文件。大多数必要的连接设置都在该文件中。有关查看和下载服务帐户详细信息的更多信息,请查看 Google 的创建和管理服务帐户密钥文档。
创建连接
- 在“数据管理器连接”选项卡中单击新建连接。
- 单击连接器的名称,然后单击下一步。
- 输入连接器设置。
- 要验证您的设置并尝试连接到源,请单击保存并测试。如果连接失败,CRM Analytics 会显示可能原因。
除非另行说明,否则所有设置需要值。
| 连接设置 | 描述 |
|---|---|
| 连接名称 | 识别连接。使用约定,可让您在区分不同连接。 |
| 开发人员名称 | 连接的 API 名称。此名称不能包含空格。API 名称会在模式中使用,以引用通过此连接提取的数据。您无法在创建连接后更改开发人员名称。 |
| 描述 | 描述 |
| 方案 | 您正在连接的 Google BigQuery 数据集 ID 的名称。 |
| 私钥 | 输入 JSON 文件中的 不要在密钥开头包含 |
| 客户电子邮件 | 输入 JSON 文件中的client_email值。 |
| 项目 ID | 输入 JSON 文件中的 如果您的多个项目包含相同服务账户,则输入包含您想要连接数据集的项目 ID。 |
| 开单项目 ID | 您希望此连接的活动计费的云计费帐户的 ID。 |
| 提取模式 | 可选设置。请输入以下其中一种模式,以从 Google BigQuery 提取数据。如果模式未指定,直接将是默认值。 直接:使用此模式,以提取小数据卷。连接器直接从 Google BigQuery 提取数据。 暂存:使用此模式,以提取大数据卷,例如 1000 万个记录。为在处理大数据卷时提高性能,连接器将暂存指定 Google 云存储路径中的数据,然后从存储路径提取数据。如果直接提取失败,尝试使用此提取模式。 |
| 使用存储 API | 可选设置。 True:使用 Google BigQuery Storage 读取 API。请查看 Google BigQuery 存储读取 API 文档,以了解您的预期消费,以及Google 数据提取定价,了解更多费用信息。 假:使用直接提取模式。此模式的数据限制为 10MB。 |
筛选同步到 CRM Analytics 的数据
在同步到 CRM Analytics 时,使用数据同步筛选器将不必要或敏感的数据排除。筛选器在源对象上运行,并通过仅将您需要的数据拉入 CRM Analytics 来加快数据同步。
- 在数据管理器中,单击连接选项卡。
- 选择与要筛选的对象相关联的连接。
- 单击要筛选的对象的名称。
- 单击数据同步筛选器。
- 输入筛选器。
- 单击保存。
对于 Google BigQuery 连接器,按照 Google BigQuery 帮助中描述的语法输入筛选器。
Google BigQuery 连接器注意事项
在使用 Google BigQuery 连接器时,请谨记这些行为。
- 连接的对象名称必须以字母开头,并且只包含字母、数字或下划线。对象名不能以下划线结尾。
- 仅支持包含字母数字、点、下划线或破折号字符组合的字段名称。如果连接器中存在含有其他字符(例如空格或括号)的字段名称,则同步会失败。
- 连接器最多可以同步 1 亿行或每个对象 50 GB,以先达到的限制为准。
- 如果 BigQuery 表使用的数据集成自 Google Drive,则不支持。Google Drive 数据必须移动到 BigQuery 中。
- 嵌入和重复字段
- 连接器会平展嵌入字段,并将其作为单独字段同步。此外,连接器会为重复字段生成新行。我们来看一个示例。此 JSON 文件中的联系人数据包含每个联系人的当前和以前的地址。地址字段嵌入状态、街道、城市和州/省字段。这些嵌入字段会针对每个联系人显示两次:第一次是当前地址,然后是以前的地址。
{"id":"1","name":"James Park","addresses":[{"status":"current","street":"1 Harper Alley","city":"Toledo","state":"OH"},{"status":"previous","street":"392 Parkside Street","city":"Seattle","state":"WA"}]} {"id":"2","name":"Lori Carr","addresses":[{"status":"current","street":"7501 Talisman Court","city":"Fort Worth","state":"TX"},{"status":"previous","street":"3368 Anderson Lane","city":"Moreno Valley","state":"CA"}]}如果您包含要同步的地址字段,每个嵌入字段会在已同步连接的对象的每个行中显示为单独字段。重复地址字段会为每个联系人生成两个行:一个行适合当前地址,另一个行适合以前的地址。
id 名称 addresses.status addresses.street addresses.city addresses.state 1 James Park 当前 1 Harper Alley Toledo 俄亥俄 1 James Park 以前 392 Parkside Street 西雅图 华盛顿州 2 Lori Carr 当前 7501 Talisman Court Fort Worth 德克萨斯州 2 Lori Carr 以前 3368 Anderson Lane Moreno Valley CA - 临时目标表
- 在为客户端提供前,连接器会在 BigQuery 中创建临时目标表,以暂存数据。连接器会按格式 EA_TEMP_<5-character random string>_<objectName> 对这些表格命名。通常,表格会自动删除。为避免 Google BigQuery 产生额外数据存储费用,请确认所有临时表已删除,并手动删除未删除的任何表。
- 表支持
- Google BigQuery for Legacy SQL 连接器支持标准 SQL 表、传统 SQL 表和传统 SQL 视图,但不支持标准 SQL 视图。
| 设置 | 描述 |
|---|---|
| 存储路径 | 仅适用于原有连接器版本。在使用暂存提取模式时是必填项。在 Google 云存储的内部路径中创建本地存储文件,以临时存储数据。输入存储器名称或存储器名称和文件夹名称。例如,输入 <bucket_name> 或 <bucket_name>/<folder_name>。 要将文件写入此暂存区域,在客户端电子邮件中指定的用户必须具有存储桶的列出、读取和写入权限。 |

