result = spark.sql("""
SELECT COUNT(DISTINCT date)
FROM (
SELECT date
FROM taxi
WHERE pickups > 200
)
""")
result.show()
Убедитесь, что ваш DataFrame taxi содержит столбцы date и pickups, и что они имеют правильные типы данных. Если ваш DataFrame имеет другую структуру, вам может потребоваться немного изменить этот код, чтобы он работал корректно.
from pyspark.sql import SparkSession
APP_NAME = "DataFrames"
SPARK_URL = "local[*]"
spark = SparkSession.builder.appName(APP_NAME) \
.config('spark.ui.showConsoleProgress', 'false') \
.getOrCreate()
taxi = spark.read .load('/datasets/pickups_terminal_5.csv',
format='csv', header='true', inferSchema='true')
taxi = taxi.fillna(0)
taxi.registerTempTable("taxi")