Kotlin · Jolanrensen · Apr 6, 2024 · Apr 15, 2024 · koperagen · Apr 16, 2024
diff --git a/...ources/src/main/kotlin/org/jetbrains/kotlinx/dataframe/aggregation/AggregateGroupedDsl.kt b/...ources/src/main/kotlin/org/jetbrains/kotlinx/dataframe/aggregation/AggregateGroupedDsl.kt
@@ -1,3 +1,7 @@
 package org.jetbrains.kotlinx.dataframe.aggregation
 
-public abstract class AggregateGroupedDsl<out T> : AggregateDsl<T>()
+import org.jetbrains.kotlinx.dataframe.AnyRow
+
+public abstract class AggregateGroupedDsl<out T> : AggregateDsl<T>() {
+    public abstract val keys: AnyRow
+}
diff --git a/core/generated-sources/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/GroupByImpl.kt b/core/generated-sources/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/GroupByImpl.kt
@@ -48,14 +48,24 @@ internal class GroupByImpl<T, G>(
     override fun <R> updateGroups(transform: Selector<DataFrame<G>, DataFrame<R>>) =
         df.convert(groups) { transform(it, it) }.asGroupBy(groups.name()) as GroupBy<T, R>
 
-    override fun toDataFrame(groupedColumnName: String?) = if (groupedColumnName == null || groupedColumnName == groups.name()) df else df.rename(groups).into(groupedColumnName)
+    override fun toDataFrame(groupedColumnName: String?) =
+        if (groupedColumnName == null || groupedColumnName == groups.name()) {
+            df
+        } else {
+            df.rename(groups).into(groupedColumnName)
+        }
 
     override fun toString() = df.toString()
 
     override fun remainingColumnsSelector(): ColumnsSelector<*, *> =
         keyColumnsInGroups.toColumnSet().let { groupCols -> { all().except(groupCols) } }
 
-    override fun <R> aggregate(body: AggregateGroupedBody<G, R>) = aggregateGroupBy(toDataFrame(), { groups }, removeColumns = true, body).cast<G>()
+    override fun <R> aggregate(body: AggregateGroupedBody<G, R>) = aggregateGroupBy(
+        df = toDataFrame(),
+        selector = { groups },
+        removeColumns = true,
+        body = body,
+    ).cast<G>()
 
     override fun filter(predicate: GroupedRowFilter<T, G>): GroupBy<T, G> {
         val indices = (0 until df.nrow).filter {
@@ -78,12 +88,13 @@ internal fun <T, G, R> aggregateGroupBy(
 
     val removed = df.removeImpl(columns = selector)
 
-    val hasKeyColumns = removed.df.ncol > 0
+    val keys = removed.df
+    val hasKeyColumns = keys.ncol > 0
 
-    val groupedFrame = column.values.map {
+    val groupedFrame = column.values.mapIndexed { i, it ->
         if (it == null) null
         else {
-            val builder = GroupByReceiverImpl(it, hasKeyColumns)
+            val builder = GroupByReceiverImpl(it, hasKeyColumns) { keys[i] }
             val result = body(builder, builder)
             if (result != Unit && result !is NamedValue && result !is AggregatedPivot<*>) builder.yield(
                 NamedValue.create(

diff --git a/...s/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/GroupByReceiverImpl.kt b/...s/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/GroupByReceiverImpl.kt
@@ -18,12 +18,22 @@ import org.jetbrains.kotlinx.dataframe.impl.createTypeWithArgument
 import org.jetbrains.kotlinx.dataframe.impl.getListType
 import kotlin.reflect.KType
 
-internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override val hasGroupingKeys: Boolean) :
+internal class GroupByReceiverImpl<T>(
+    override val df: DataFrame<T>,
+    override val hasGroupingKeys: Boolean,
+    private val retrieveKey: () -> AnyRow = {
+        error("This property can only be used inside 'groupBy { }.aggregate { }' clause")
+    }
+) :
     AggregateGroupedDsl<T>(),
     AggregateInternalDsl<T>,
     AggregatableInternal<T> by df as AggregatableInternal<T>,
     DataFrame<T> by df {
 
+    override val keys by lazy {
+        retrieveKey()
+    }
+
     private val values = mutableListOf<NamedValue>()
 
     internal fun child(): GroupByReceiverImpl<T> {
@@ -41,16 +51,41 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
                         allValues.add(it)
                     }
                 }
+
                 is ValueColumn<*> -> {
-                    allValues.add(NamedValue.create(it.path, it.value.toList(), getListType(it.value.type()), emptyList<Unit>()))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.toList(),
+                            getListType(it.value.type()),
+                            emptyList<Unit>()
+                        )
+                    )
                 }
+
                 is ColumnGroup<*> -> {
                     val frameType = it.value.type().arguments.singleOrNull()?.type
-                    allValues.add(NamedValue.create(it.path, it.value.asDataFrame(), DataFrame::class.createTypeWithArgument(frameType), DataFrame.Empty))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.asDataFrame(),
+                            DataFrame::class.createTypeWithArgument(frameType),
+                            DataFrame.Empty
+                        )
+                    )
                 }
+
                 is FrameColumn<*> -> {
-                    allValues.add(NamedValue.create(it.path, it.value.toList(), getListType(it.value.type()), emptyList<Unit>()))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.toList(),
+                            getListType(it.value.type()),
+                            emptyList<Unit>()
+                        )
+                    )
                 }
+
                 else -> {
                     allValues.add(it)
                 }
@@ -70,7 +105,9 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
         when (value.value) {
             is AggregatedPivot<*> -> {
                 val pivot = value.value
-                val dropFirstNameInPath = pivot.inward == true && value.path.isNotEmpty() && pivot.aggregator.values.distinctBy { it.path.firstOrNull() }.count() == 1
+                val dropFirstNameInPath =
+                    pivot.inward == true && value.path.isNotEmpty() && pivot.aggregator.values.distinctBy { it.path.firstOrNull() }
+                        .count() == 1
                 pivot.aggregator.values.forEach {
                     val targetPath =
                         if (dropFirstNameInPath && it.path.size > 0) value.path + it.path.dropFirst()
@@ -80,6 +117,7 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
                 }
                 pivot.aggregator.values.clear()
             }
+
             is AggregateInternalDsl<*> -> yield(value.copy(value = value.value.df))
             else -> values.add(value)
         }

diff --git a/core/generated-sources/src/test/kotlin/org/jetbrains/kotlinx/dataframe/api/groupBy.kt b/core/generated-sources/src/test/kotlin/org/jetbrains/kotlinx/dataframe/api/groupBy.kt
@@ -55,4 +55,21 @@ class GroupByTests {
             getFrameColumn("d") into "e"
         }["e"].type() shouldBe typeOf<List<AnyFrame>>()
     }
+
+    @Test
+    fun `aggregate based on the key column`() {
+        val df = dataFrameOf(
+            "a", "b", "c"
+        )(
+            1, 2, 3,
+            4, 5, 6,
+        )
+        val grouped = df.groupBy { expr("test") { "a"<Int>() + "b"<Int>() } }
+            .aggregate {
+                count() into "count"
+                keys into "keys"
+            }
+
+        grouped.print()
+    }
 }
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/aggregation/AggregateGroupedDsl.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/aggregation/AggregateGroupedDsl.kt
@@ -1,3 +1,7 @@
 package org.jetbrains.kotlinx.dataframe.aggregation
 
-public abstract class AggregateGroupedDsl<out T> : AggregateDsl<T>()
+import org.jetbrains.kotlinx.dataframe.AnyRow
+
+public abstract class AggregateGroupedDsl<out T> : AggregateDsl<T>() {
+    public abstract val keys: AnyRow
+}
diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/GroupByImpl.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/GroupByImpl.kt
@@ -48,14 +48,24 @@ internal class GroupByImpl<T, G>(
     override fun <R> updateGroups(transform: Selector<DataFrame<G>, DataFrame<R>>) =
         df.convert(groups) { transform(it, it) }.asGroupBy(groups.name()) as GroupBy<T, R>
 
-    override fun toDataFrame(groupedColumnName: String?) = if (groupedColumnName == null || groupedColumnName == groups.name()) df else df.rename(groups).into(groupedColumnName)
+    override fun toDataFrame(groupedColumnName: String?) =
+        if (groupedColumnName == null || groupedColumnName == groups.name()) {
+            df
+        } else {
+            df.rename(groups).into(groupedColumnName)
+        }
 
     override fun toString() = df.toString()
 
     override fun remainingColumnsSelector(): ColumnsSelector<*, *> =
         keyColumnsInGroups.toColumnSet().let { groupCols -> { all().except(groupCols) } }
 
-    override fun <R> aggregate(body: AggregateGroupedBody<G, R>) = aggregateGroupBy(toDataFrame(), { groups }, removeColumns = true, body).cast<G>()
+    override fun <R> aggregate(body: AggregateGroupedBody<G, R>) = aggregateGroupBy(
+        df = toDataFrame(),
+        selector = { groups },
+        removeColumns = true,
+        body = body,
+    ).cast<G>()
 
     override fun filter(predicate: GroupedRowFilter<T, G>): GroupBy<T, G> {
         val indices = (0 until df.nrow).filter {
@@ -78,12 +88,13 @@ internal fun <T, G, R> aggregateGroupBy(
 
     val removed = df.removeImpl(columns = selector)
 
-    val hasKeyColumns = removed.df.ncol > 0
+    val keys = removed.df
+    val hasKeyColumns = keys.ncol > 0
 
-    val groupedFrame = column.values.map {
+    val groupedFrame = column.values.mapIndexed { i, it ->
         if (it == null) null
         else {
-            val builder = GroupByReceiverImpl(it, hasKeyColumns)
+            val builder = GroupByReceiverImpl(it, hasKeyColumns) { keys[i] }
             val result = body(builder, builder)
             if (result != Unit && result !is NamedValue && result !is AggregatedPivot<*>) builder.yield(
                 NamedValue.create(

diff --git a/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/GroupByReceiverImpl.kt b/core/src/main/kotlin/org/jetbrains/kotlinx/dataframe/impl/aggregation/GroupByReceiverImpl.kt
@@ -18,12 +18,22 @@ import org.jetbrains.kotlinx.dataframe.impl.createTypeWithArgument
 import org.jetbrains.kotlinx.dataframe.impl.getListType
 import kotlin.reflect.KType
 
-internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override val hasGroupingKeys: Boolean) :
+internal class GroupByReceiverImpl<T>(
+    override val df: DataFrame<T>,
+    override val hasGroupingKeys: Boolean,
+    private val retrieveKey: () -> AnyRow = {
+        error("This property can only be used inside 'groupBy { }.aggregate { }' clause")
+    }
+) :
     AggregateGroupedDsl<T>(),
     AggregateInternalDsl<T>,
     AggregatableInternal<T> by df as AggregatableInternal<T>,
     DataFrame<T> by df {
 
+    override val keys by lazy {
+        retrieveKey()
+    }
+
     private val values = mutableListOf<NamedValue>()
 
     internal fun child(): GroupByReceiverImpl<T> {
@@ -41,16 +51,41 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
                         allValues.add(it)
                     }
                 }
+
                 is ValueColumn<*> -> {
-                    allValues.add(NamedValue.create(it.path, it.value.toList(), getListType(it.value.type()), emptyList<Unit>()))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.toList(),
+                            getListType(it.value.type()),
+                            emptyList<Unit>()
+                        )
+                    )
                 }
+
                 is ColumnGroup<*> -> {
                     val frameType = it.value.type().arguments.singleOrNull()?.type
-                    allValues.add(NamedValue.create(it.path, it.value.asDataFrame(), DataFrame::class.createTypeWithArgument(frameType), DataFrame.Empty))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.asDataFrame(),
+                            DataFrame::class.createTypeWithArgument(frameType),
+                            DataFrame.Empty
+                        )
+                    )
                 }
+
                 is FrameColumn<*> -> {
-                    allValues.add(NamedValue.create(it.path, it.value.toList(), getListType(it.value.type()), emptyList<Unit>()))
+                    allValues.add(
+                        NamedValue.create(
+                            it.path,
+                            it.value.toList(),
+                            getListType(it.value.type()),
+                            emptyList<Unit>()
+                        )
+                    )
                 }
+
                 else -> {
                     allValues.add(it)
                 }
@@ -70,7 +105,9 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
         when (value.value) {
             is AggregatedPivot<*> -> {
                 val pivot = value.value
-                val dropFirstNameInPath = pivot.inward == true && value.path.isNotEmpty() && pivot.aggregator.values.distinctBy { it.path.firstOrNull() }.count() == 1
+                val dropFirstNameInPath =
+                    pivot.inward == true && value.path.isNotEmpty() && pivot.aggregator.values.distinctBy { it.path.firstOrNull() }
+                        .count() == 1
                 pivot.aggregator.values.forEach {
                     val targetPath =
                         if (dropFirstNameInPath && it.path.size > 0) value.path + it.path.dropFirst()
@@ -80,6 +117,7 @@ internal class GroupByReceiverImpl<T>(override val df: DataFrame<T>, override va
                 }
                 pivot.aggregator.values.clear()
             }
+
             is AggregateInternalDsl<*> -> yield(value.copy(value = value.value.df))
             else -> values.add(value)
         }

diff --git a/core/src/test/kotlin/org/jetbrains/kotlinx/dataframe/api/groupBy.kt b/core/src/test/kotlin/org/jetbrains/kotlinx/dataframe/api/groupBy.kt
@@ -55,4 +55,21 @@ class GroupByTests {
             getFrameColumn("d") into "e"
         }["e"].type() shouldBe typeOf<List<AnyFrame>>()
     }
+
+    @Test
+    fun `aggregate based on the key column`() {
+        val df = dataFrameOf(
+            "a", "b", "c"
+        )(
+            1, 2, 3,
+            4, 5, 6,
+        )
+        val grouped = df.groupBy { expr("test") { "a"<Int>() + "b"<Int>() } }
+            .aggregate {
+                count() into "count"
+                keys into "keys"
+            }
+
+        grouped.print()
+    }
 }