JinDaGe - sail MCP Details

article

README

Sail 的使命是统一流处理、批处理和计算密集型（AI）工作负载。目前，Sail 提供了 Spark SQL 和 Spark DataFrame API 的掉入式替代品，在单节点和分布式环境中均可使用。

sail spark server --port 50051

from pysail.spark import SparkConnectServer

server = SparkConnectServer(port=50051)
server.start(background=False)

选项 3：Kubernetes 您可以将 Sail 部署到 Kubernetes 并以集群模式运行 Sail，实现分布式处理。请参考 Kubernetes 部署指南了解如何构建 Docker 映像和编写 Kubernetes 扩展文件 YAML 文件。

kubectl apply -f sail.yaml
kubectl -n sail port-forward service/sail-spark-server 50051:50051

一旦有了运行中的 Sail 服务器，您就可以通过 PySpark 连接。无需更改您的 PySpark 代码！

from pyspark.sql import SparkSession

spark = SparkSession.builder.remote("sc://localhost:50051").getOrCreate()
spark.sql("SELECT 1 + 1").show()

请参考快速入门指南了解更多详细信息。

Sail 作为 Python 包在 PyPI 上可用。您可以使用 pip 进行安装。

pip install "pysail[spark]"

或者，您可以从源代码安装以获得针对硬件架构的更好性能。您可以按照安装指南了解更多详细信息。

我们欢迎社区的贡献！您可以通过以下方式参与：

如需商业支持，请联系 LakeSail。