`tea_tasting.datasets` #

Example datasets.

`make_users_data(*, covariates=False, seed=None, n_users=4000, ratio=1, sessions_uplift=0.0, orders_uplift=0.1, revenue_uplift=0.1, avg_sessions=2, avg_orders_per_session=0.25, avg_revenue_per_order=10, return_type='arrow')` #

Generate simulated data for A/B testing scenarios.

Data mimics what you might encounter in an A/B test for an online store, with a user-level randomization. Each row represents an individual user with information about:

user: User identifier.
variant: Variant of the test. 0 is control, 1 is treatment.
sessions: Number of user's sessions.
orders: Number of user's orders.
revenue: Revenue generated by the user.

Optionally, pre-experimental data can be generated as well:

sessions_covariate: Number of user's sessions before the experiment.
orders_covariate: Number of user's orders before the experiment.
revenue_covariate: Revenue generated by the user before the experiment.

Parameters:

Name	Type	Description	Default
`covariates`	`bool`	If `True`, generates pre-experimental data as the covariates in addition to default columns.	`False`
`seed`	`int \| Generator \| SeedSequence \| None`	Random seed.	`None`
`n_users`	`int`	Number of users.	`4000`
`ratio`	`float \| int`	Ratio of the number of users in treatment relative to control.	`1`
`sessions_uplift`	`float \| int`	Sessions uplift in the treatment variant, relative to control.	`0.0`
`orders_uplift`	`float`	Orders uplift in the treatment variant, relative to control.	`0.1`
`revenue_uplift`	`float`	Revenue uplift in the treatment variant, relative to control.	`0.1`
`avg_sessions`	`float \| int`	Average number of sessions per user.	`2`
`avg_orders_per_session`	`float`	Average number of orders per session. Should be less than `1`.	`0.25`
`avg_revenue_per_order`	`float \| int`	Average revenue per order.	`10`
`return_type`	`Literal['arrow', 'pandas', 'polars']`	Return type: `"arrow"`: PyArrow Table. `"pandas"`: Pandas DataFrame. `"polars"`: Polars DataFrame.	`'arrow'`

Returns:

Type	Description
`Table \| DataFrame \| DataFrame`	Simulated data for A/B testing scenarios.

Examples:

>>> import tea_tasting as tt

>>> data = tt.make_users_data(seed=42)
>>> data
pyarrow.Table
user: int64
variant: int64
sessions: int64
orders: int64
revenue: double
----
user: [[0,1,2,3,4,...,3995,3996,3997,3998,3999]]
variant: [[1,0,1,1,0,...,0,0,0,0,0]]
sessions: [[2,2,2,2,1,...,2,2,3,1,5]]
orders: [[1,1,1,1,1,...,0,0,0,0,2]]
revenue: [[9.17,6.43,7.94,15.93,7.14,...,0,0,0,0,17.16]]

With covariates:

>>> data = tt.make_users_data(seed=42, covariates=True)
>>> data
pyarrow.Table
user: int64
variant: int64
sessions: int64
orders: int64
revenue: double
sessions_covariate: int64
orders_covariate: int64
revenue_covariate: double
----
user: [[0,1,2,3,4,...,3995,3996,3997,3998,3999]]
variant: [[1,0,1,1,0,...,0,0,0,0,0]]
sessions: [[2,2,2,2,1,...,2,2,3,1,5]]
orders: [[1,1,1,1,1,...,0,0,0,0,2]]
revenue: [[9.17,6.43,7.94,15.93,7.14,...,0,0,0,0,17.16]]
sessions_covariate: [[3,4,4,1,1,...,1,3,2,1,5]]
orders_covariate: [[2,1,2,0,1,...,0,1,0,0,0]]
revenue_covariate: [[19.19,2.77,22.57,0,13.68,...,0,13.52,0,0,0]]

As Pandas DataFrame:

>>> data = tt.make_users_data(seed=42, return_type="pandas")
>>> data
      user  variant  sessions  orders  revenue
0        0        1         2       1     9.17
1        1        0         2       1     6.43
2        2        1         2       1     7.94
3        3        1         2       1    15.93
4        4        0         1       1     7.14
...    ...      ...       ...     ...      ...
3995  3995        0         2       0     0.00
3996  3996        0         2       0     0.00
3997  3997        0         3       0     0.00
3998  3998        0         1       0     0.00
3999  3999        0         5       2    17.16

[4000 rows x 5 columns]

As Polars DataFrame:

>>> data = tt.make_users_data(seed=42, return_type="polars")
>>> data
shape: (4_000, 5)
┌──────┬─────────┬──────────┬────────┬─────────┐
│ user ┆ variant ┆ sessions ┆ orders ┆ revenue │
│ ---  ┆ ---     ┆ ---      ┆ ---    ┆ ---     │
│ i64  ┆ i64     ┆ i64      ┆ i64    ┆ f64     │
╞══════╪═════════╪══════════╪════════╪═════════╡
│ 0    ┆ 1       ┆ 2        ┆ 1      ┆ 9.17    │
│ 1    ┆ 0       ┆ 2        ┆ 1      ┆ 6.43    │
│ 2    ┆ 1       ┆ 2        ┆ 1      ┆ 7.94    │
│ 3    ┆ 1       ┆ 2        ┆ 1      ┆ 15.93   │
│ 4    ┆ 0       ┆ 1        ┆ 1      ┆ 7.14    │
│ …    ┆ …       ┆ …        ┆ …      ┆ …       │
│ 3995 ┆ 0       ┆ 2        ┆ 0      ┆ 0.0     │
│ 3996 ┆ 0       ┆ 2        ┆ 0      ┆ 0.0     │
│ 3997 ┆ 0       ┆ 3        ┆ 0      ┆ 0.0     │
│ 3998 ┆ 0       ┆ 1        ┆ 0      ┆ 0.0     │
│ 3999 ┆ 0       ┆ 5        ┆ 2      ┆ 17.16   │
└──────┴─────────┴──────────┴────────┴─────────┘

Source code in src/tea_tasting/datasets.py

def make_users_data(
    *,
    covariates: bool = False,
    seed: int | np.random.Generator | np.random.SeedSequence | None = None,
    n_users: int = 4000,
    ratio: float | int = 1,
    sessions_uplift: float | int = 0.0,
    orders_uplift: float = 0.1,
    revenue_uplift: float = 0.1,
    avg_sessions: float | int = 2,
    avg_orders_per_session: float = 0.25,
    avg_revenue_per_order: float | int = 10,
    return_type: Literal["arrow", "pandas", "polars"] = "arrow",
) -> pa.Table | pd.DataFrame | pl.DataFrame:
    """Generate simulated data for A/B testing scenarios.

    Data mimics what you might encounter in an A/B test for an online store,
    with a user-level randomization. Each row represents an individual user
    with information about:

    - `user`: User identifier.
    - `variant`: Variant of the test. 0 is control, 1 is treatment.
    - `sessions`: Number of user's sessions.
    - `orders`: Number of user's orders.
    - `revenue`: Revenue generated by the user.

    Optionally, pre-experimental data can be generated as well:

    - `sessions_covariate`: Number of user's sessions
        before the experiment.
    - `orders_covariate`: Number of user's orders before the experiment.
    - `revenue_covariate`: Revenue generated by the user
        before the experiment.

    Args:
        covariates: If `True`, generates pre-experimental data as the covariates
            in addition to default columns.
        seed: Random seed.
        n_users: Number of users.
        ratio: Ratio of the number of users in treatment relative to control.
        sessions_uplift: Sessions uplift in the treatment variant, relative to control.
        orders_uplift: Orders uplift in the treatment variant, relative to control.
        revenue_uplift: Revenue uplift in the treatment variant, relative to control.
        avg_sessions: Average number of sessions per user.
        avg_orders_per_session: Average number of orders per session.
            Should be less than `1`.
        avg_revenue_per_order: Average revenue per order.
        return_type: Return type:

            - `"arrow"`: PyArrow Table.
            - `"pandas"`: Pandas DataFrame.
            - `"polars"`: Polars DataFrame.

    Returns:
        Simulated data for A/B testing scenarios.

    Examples:
        ```pycon
        >>> import tea_tasting as tt

        >>> data = tt.make_users_data(seed=42)
        >>> data
        pyarrow.Table
        user: int64
        variant: int64
        sessions: int64
        orders: int64
        revenue: double
        ----
        user: [[0,1,2,3,4,...,3995,3996,3997,3998,3999]]
        variant: [[1,0,1,1,0,...,0,0,0,0,0]]
        sessions: [[2,2,2,2,1,...,2,2,3,1,5]]
        orders: [[1,1,1,1,1,...,0,0,0,0,2]]
        revenue: [[9.17,6.43,7.94,15.93,7.14,...,0,0,0,0,17.16]]

        ```

        With covariates:

        ```pycon
        >>> data = tt.make_users_data(seed=42, covariates=True)
        >>> data
        pyarrow.Table
        user: int64
        variant: int64
        sessions: int64
        orders: int64
        revenue: double
        sessions_covariate: int64
        orders_covariate: int64
        revenue_covariate: double
        ----
        user: [[0,1,2,3,4,...,3995,3996,3997,3998,3999]]
        variant: [[1,0,1,1,0,...,0,0,0,0,0]]
        sessions: [[2,2,2,2,1,...,2,2,3,1,5]]
        orders: [[1,1,1,1,1,...,0,0,0,0,2]]
        revenue: [[9.17,6.43,7.94,15.93,7.14,...,0,0,0,0,17.16]]
        sessions_covariate: [[3,4,4,1,1,...,1,3,2,1,5]]
        orders_covariate: [[2,1,2,0,1,...,0,1,0,0,0]]
        revenue_covariate: [[19.19,2.77,22.57,0,13.68,...,0,13.52,0,0,0]]

        ```

        As Pandas DataFrame:

        ```pycon
        >>> data = tt.make_users_data(seed=42, return_type="pandas")
        >>> data
              user  variant  sessions  orders  revenue
        0        0        1         2       1     9.17
        1        1        0         2       1     6.43
        2        2        1         2       1     7.94
        3        3        1         2       1    15.93
        4        4        0         1       1     7.14
        ...    ...      ...       ...     ...      ...
        3995  3995        0         2       0     0.00
        3996  3996        0         2       0     0.00
        3997  3997        0         3       0     0.00
        3998  3998        0         1       0     0.00
        3999  3999        0         5       2    17.16
        <BLANKLINE>
        [4000 rows x 5 columns]

        ```

        As Polars DataFrame:

        ```pycon
        >>> data = tt.make_users_data(seed=42, return_type="polars")
        >>> data
        shape: (4_000, 5)
        ┌──────┬─────────┬──────────┬────────┬─────────┐
        │ user ┆ variant ┆ sessions ┆ orders ┆ revenue │
        │ ---  ┆ ---     ┆ ---      ┆ ---    ┆ ---     │
        │ i64  ┆ i64     ┆ i64      ┆ i64    ┆ f64     │
        ╞══════╪═════════╪══════════╪════════╪═════════╡
        │ 0    ┆ 1       ┆ 2        ┆ 1      ┆ 9.17    │
        │ 1    ┆ 0       ┆ 2        ┆ 1      ┆ 6.43    │
        │ 2    ┆ 1       ┆ 2        ┆ 1      ┆ 7.94    │
        │ 3    ┆ 1       ┆ 2        ┆ 1      ┆ 15.93   │
        │ 4    ┆ 0       ┆ 1        ┆ 1      ┆ 7.14    │
        │ …    ┆ …       ┆ …        ┆ …      ┆ …       │
        │ 3995 ┆ 0       ┆ 2        ┆ 0      ┆ 0.0     │
        │ 3996 ┆ 0       ┆ 2        ┆ 0      ┆ 0.0     │
        │ 3997 ┆ 0       ┆ 3        ┆ 0      ┆ 0.0     │
        │ 3998 ┆ 0       ┆ 1        ┆ 0      ┆ 0.0     │
        │ 3999 ┆ 0       ┆ 5        ┆ 2      ┆ 17.16   │
        └──────┴─────────┴──────────┴────────┴─────────┘

        ```
    """
    return _make_data(
        covariates=covariates,
        seed=seed,
        n_users=n_users,
        ratio=ratio,
        sessions_uplift=sessions_uplift,
        orders_uplift=orders_uplift,
        revenue_uplift=revenue_uplift,
        avg_sessions=avg_sessions,
        avg_orders_per_session=avg_orders_per_session,
        avg_revenue_per_order=avg_revenue_per_order,
        return_type=return_type,
        explode_sessions=False,
    )

`make_sessions_data(*, covariates=False, seed=None, n_users=4000, ratio=1, sessions_uplift=0.0, orders_uplift=0.1, revenue_uplift=0.1, avg_sessions=2, avg_orders_per_session=0.25, avg_revenue_per_order=10, return_type='arrow')` #

Generate simulated user data for A/B testing scenarios.

Data mimics what you might encounter in an A/B test for an online store, with a user-level randomization. Each row represents a user's session with information about:

user: User identifier.
variant: Variant of the test. 0 is control, 1 is treatment.
sessions: Number of user's sessions.
orders: Number of user's orders.
revenue: Revenue generated by the user.