返回

新手也能玩转:5分钟使用Hologres实时湖仓加速分析

闲谈

Hologres:实时湖仓的未来

在当今数据驱动的世界中,企业面临着从庞杂的数据中提取有价值见解的挑战。传统的存储和分析方法已经难以跟上数据激增的步伐,从而阻碍了企业及时做出明智的决策。Hologres 实时湖仓应运而生,为企业提供了解决方案。

什么是 Hologres 实时湖仓?

Hologres 实时湖仓是一款业界领先的数据湖产品,提供以下强大功能:

  • 实时查询和分析: 对数据湖中的数据进行即时查询,无需等待数据导入到传统数据仓库。
  • 高性能: 通过分布式架构提供高并发和低延迟的查询性能。
  • 高可靠性: 采用多副本存储和故障自动恢复机制,确保数据的安全和可用性。
  • 高扩展性: 根据业务需求灵活扩展,满足不断增长的数据分析需求。

轻松上手

Hologres 实时湖仓的使用过程非常简单:

  1. 创建实例: 只需几分钟即可创建 Hologres 实时湖仓实例。
  2. 导入数据: 将数据导入数据湖,支持多种数据格式,包括 Hudi、Delta、Paimon 和 ORC。
  3. 查询和分析: 对导入的数据进行实时查询和分析,并立即获取结果。

适用场景

Hologres 实时湖仓适用于各种场景,包括:

  • 实时数据分析
  • 离线数据分析
  • 机器学习
  • 数据仓库

代码示例

创建 Hologres 实时湖仓实例:

import json

import google.cloud.bigquery

project = "your-project"
location = "us"
instance_id = "your-instance"

bigquery_client = google.cloud.bigquery.Client(project=project)

instance = bigquery_client.create_instance(
    instance_id,
    "Hologres",
    location=location,
)

print(f"Hologres instance {instance.instance_id} created successfully.")

导入数据到 Hologres 实时湖仓:

import io

import google.cloud.storage
import google.cloud.bigquery

project = "your-project"
location = "us"
dataset_id = "your-dataset"
table_id = "your-table"

# Create a Cloud Storage client.
storage_client = google.cloud.storage.Client(project=project)

# Create a BigQuery client.
bigquery_client = google.cloud.bigquery.Client(project=project)

# Create the destination table.
dataset = bigquery_client.create_dataset(dataset_id)
table_ref = dataset.table(table_id)
table = bigquery_client.create_table(table_ref)

# Create a local CSV file.
csv_file = io.StringIO(
    "name,email\n"
    "John,john@example.com\n"
    "Jane,jane@example.com\n"
    "Jack,jack@example.com"
)

# Upload the CSV file to GCS.
bucket_name = "your-bucket"
blob = storage_client.bucket(bucket_name).blob("my-data.csv")
blob.upload_from_file(csv_file)

# Load the data from GCS into the table.
job = bigquery_client.load_table_from_uri(
    f"gs://{bucket_name}/my-data.csv", table_ref
)  # Make an API request.

job.result()  # Wait for the job to complete.

print(f"Data loaded into {table_id} table successfully.")

查询 Hologres 实时湖仓中的数据:

import google.cloud.bigquery

project = "your-project"
location = "us"
dataset_id = "your-dataset"
table_id = "your-table"

bigquery_client = google.cloud.bigquery.Client(project=project)

query_string = f"""
SELECT
  name,
  email
FROM
  `{project}.{location}.{dataset_id}.{table_id}`
"""

query_job = bigquery_client.query(query_string)

results = query_job.result()

for row in results:
    print(f"Name: {row.name}, Email: {row.email}")

常见问题解答

  • Hologres 与传统数据仓库有何不同? Hologres 是一款实时湖仓,提供对数据湖中的数据的即时查询和分析,而传统数据仓库需要将数据从数据湖导入才能进行分析。
  • Hologres 支持哪些数据格式? Hologres 支持多种数据格式,包括 Hudi、Delta、Paimon 和 ORC。
  • Hologres 如何确保数据的可靠性? Hologres 采用多副本存储和故障自动恢复机制,确保数据的高可用性。
  • Hologres 的成本是多少? Hologres 的成本基于实际使用情况,按查询和存储收取费用。
  • 如何开始使用 Hologres? 您可以访问 Hologres 网站创建实例并开始使用。

结论

Hologres 实时湖仓是企业实现实时数据分析和数据驱动的决策的理想解决方案。通过其强大的功能、易用性和适用性,Hologres 正在为数据管理和分析的未来树立新的标杆。