README
🚀 帆船(Sail)
Sail 的使命是统一流处理、批处理和计算密集型(AI)工作负载。目前,Sail 提供了 Spark SQL 和 Spark DataFrame API 的掉入式替代品,在单节点和分布式环境中均可使用。
🚀 快速开始
启动 Sail 服务器
- 选项 1:命令行界面
您可以使用
sail命令启动本地 Sail 服务器。
sail spark server --port 50051
- 选项 2:Python API 您可以通过 Python API 启动本地 Sail 服务器。
from pysail.spark import SparkConnectServer
server = SparkConnectServer(port=50051)
server.start(background=False)
- 选项 3:Kubernetes 您可以将 Sail 部署到 Kubernetes 并以集群模式运行 Sail,实现分布式处理。 请参考 Kubernetes 部署指南 了解如何构建 Docker 映像和编写 Kubernetes 扩展文件 YAML 文件。
kubectl apply -f sail.yaml
kubectl -n sail port-forward service/sail-spark-server 50051:50051
连接到 Sail 服务器
一旦有了运行中的 Sail 服务器,您就可以通过 PySpark 连接。无需更改您的 PySpark 代码!
from pyspark.sql import SparkSession
spark = SparkSession.builder.remote("sc://localhost:50051").getOrCreate()
spark.sql("SELECT 1 + 1").show()
请参考 快速入门指南 了解更多详细信息。
✨ 主要特性
- 统一流处理、批处理和计算密集型(AI)工作负载。
- 提供 Spark SQL 和 Spark DataFrame API 的掉入式替代品,支持单节点和分布式环境。
- ✨新闻✨:推出 MCP 服务器,将 Spark 数据分析带给 LLM 代理和人类!
📦 安装指南
Sail 作为 Python 包在 PyPI 上可用。您可以使用 pip 进行安装。
pip install "pysail[spark]"
或者,您可以从源代码安装以获得针对硬件架构的更好性能。您可以按照 安装指南 了解更多详细信息。
📚 详细文档
📚 进一步阅读
- 统一数据处理:为什么我们需要 Sail?
- MCP 服务器:将 Spark 数据分析带给 LLM 代理和人类
🤝 贡献
我们欢迎社区的贡献!您可以通过以下方式参与:
🛠️ 支持
如需商业支持,请联系 LakeSail。
© 2024 LakeSail. 保留所有权利。
Scan to contact