Early cordon #405

shreyas-badiger · 2023-11-09T17:47:48Z

Currently, upgrade-manager supports 2 different strategies:
Eager mode - Eagerly wait for replacement nodes and only then drain & terminate the previous instances.
Lazy mode - Rotate (drain and terminate) the desired number of nodes without waiting for the replacement nodes.

In these two strategies, we cordon only the nodes that are in the current batch (batch size is determined by maxUnavailable mentioned in the RollingUpgrade CR. By default maxUnavailable=1)

While the upgrade is in progress, the remaining older nodes that are not yet considered in the node-rotation batch, might have newer deployments / pods scheduled.

These newly scheduled pods could have yet another restart when the underlying older nodes are considered for rotation.
There is also an added time for draining these nodes with additional new pods.

With the approach in PR, we will cordon all the nodes in the respective IG when a rollingUpgrade CR is being processed. The newer pods will always scheduled on newer nodes when an upgrade is in progress.

Signed-off-by: sbadiger <[email protected]>

codecov · 2023-11-18T06:19:01Z

Codecov Report

Attention: 33 lines in your changes are missing coverage. Please review.

Comparison is base (1201813) 39.09% compared to head (5c6287d) 43.75%.

Files	Patch %	Lines
controllers/upgrade.go	37.77%	26 Missing and 2 partials ⚠️
controllers/rollingupgrade_controller.go	0.00%	5 Missing ⚠️

Additional details and impacted files

@@            Coverage Diff             @@
##           master     #405      +/-   ##
==========================================
+ Coverage   39.09%   43.75%   +4.65%     
==========================================
  Files           7        7              
  Lines         931     1104     +173     
==========================================
+ Hits          364      483     +119     
- Misses        540      575      +35     
- Partials       27       46      +19

Flag	Coverage Δ
unittests	`43.75% <34.00%> (+4.65%)`	⬆️

Flags with carried forward coverage won't be shown. Click here to find out more.

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

…rade-manager into early-cordon

Signed-off-by: Todd Ekenstam <[email protected]> Signed-off-by: sbadiger <[email protected]>

* Process drain-failures at the end Signed-off-by: ssheladiya <[email protected]> Signed-off-by: sbadiger <[email protected]>

Signed-off-by: sbadiger <[email protected]>

controllers/providers/kubernetes/nodes.go

Co-authored-by: Venkata Gunapati <[email protected]>

…rade-manager into early-cordon

controllers/providers/kubernetes/nodes.go

controllers/upgrade.go

Co-authored-by: Venkata Gunapati <[email protected]>

…rade-manager into early-cordon

shaoxt

LGTM

controllers/rollingupgrade_controller.go

shreyas-badiger and others added 3 commits November 9, 2023 23:18

early-cordon nodes

b03c94c

Signed-off-by: sbadiger <[email protected]>

early cordon

a304b32

Signed-off-by: sbadiger <[email protected]>

Merge branch 'master' into early-cordon

6a1b33e

shreyas-badiger and others added 5 commits November 18, 2023 11:56

include context in cordon and drain functions

951d10d

Merge branch 'early-cordon' of https://github.com/shreyas-badiger/upg…

e770892

…rade-manager into early-cordon

cordon only drifted instances

1f255ee

add unit tests

ef8e0d0

Merge branch 'master' into early-cordon

b94f784

shreyas-badiger marked this pull request as ready for review November 20, 2023 18:35

shreyas-badiger requested review from a team as code owners November 20, 2023 18:35

tekenstam and others added 8 commits November 20, 2023 10:38

Update aws-sdk-go-cache to v0.0.2 (#399)

0f86fad

Signed-off-by: Todd Ekenstam <[email protected]> Signed-off-by: sbadiger <[email protected]>

Process drain-failure nodes at the end (#394)

f28163e

* Process drain-failures at the end Signed-off-by: ssheladiya <[email protected]> Signed-off-by: sbadiger <[email protected]>

early-cordon nodes

15a65aa

Signed-off-by: sbadiger <[email protected]>

early cordon

d5415b5

Signed-off-by: sbadiger <[email protected]>

include context in cordon and drain functions

3cb3b0b

Signed-off-by: sbadiger <[email protected]>

Release v1.0.8 (#400)

253b58b

Signed-off-by: sbadiger <[email protected]>

cordon only drifted instances

6068e4f

Signed-off-by: sbadiger <[email protected]>

add unit tests

d735d6b

Signed-off-by: sbadiger <[email protected]>

shreyas-badiger changed the title ~~Early cordon~~ [DRAFT] Early cordon Nov 20, 2023

shreyas-badiger added 9 commits November 20, 2023 10:43

resolve merge conflicts

726015a

resolve merge conflicts

7d73a0b

update go.sum

78ec2d0

resolve test errors

44cb155

remove cordon as upgrade strategy

6a5e732

remove space

21b882e

improve test coverage

a72d338

improve code coverage

c64f516

remove redundant code

951afea

remove unused imports

6699ab7

shreyas-badiger changed the title ~~[DRAFT] Early cordon~~ Early cordon Nov 21, 2023

shreyas-badiger added 2 commits November 21, 2023 12:36

Merge branch 'master' into early-cordon

8a0dbc9

Merge branch 'master' into early-cordon

39680e2

vgunapati reviewed Nov 29, 2023

View reviewed changes

controllers/providers/kubernetes/nodes.go Outdated Show resolved Hide resolved

shreyas-badiger and others added 6 commits November 29, 2023 08:19

Merge branch 'master' into early-cordon

5fb2c7d

Update controllers/providers/kubernetes/nodes.go

1070ea6

Co-authored-by: Venkata Gunapati <[email protected]>

uncordon the nodes

90e0a26

Merge branch 'master' into early-cordon

caf730c

error handling for uncordoning

f7ac7be

Merge branch 'early-cordon' of https://github.com/shreyas-badiger/upg…

c8d5480

…rade-manager into early-cordon

vgunapati reviewed Dec 1, 2023

View reviewed changes

controllers/providers/kubernetes/nodes.go Outdated Show resolved Hide resolved

vgunapati reviewed Dec 1, 2023

View reviewed changes

controllers/upgrade.go Outdated Show resolved Hide resolved

shreyas-badiger and others added 7 commits December 1, 2023 14:58

add tests

717b481

handle uncordon scenario properly

5a2a243

Update controllers/providers/kubernetes/nodes.go

2799789

Co-authored-by: Venkata Gunapati <[email protected]>

fix typo

bf895e5

Merge branch 'early-cordon' of https://github.com/shreyas-badiger/upg…

84f13e2

…rade-manager into early-cordon

fix lint errors

ad93882

default the feature to false

5c6287d

shaoxt approved these changes Dec 4, 2023

View reviewed changes

vgunapati approved these changes Dec 5, 2023

View reviewed changes

shreyas-badiger merged commit c2fdb37 into keikoproj:master Dec 5, 2023
3 of 4 checks passed

ZihanJiang96 reviewed Dec 5, 2023

View reviewed changes

controllers/rollingupgrade_controller.go Show resolved Hide resolved

shreyas-badiger mentioned this pull request Dec 6, 2023

Release v1.0.9 #418

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Early cordon #405

Early cordon #405

shreyas-badiger commented Nov 9, 2023 •

edited

Loading

codecov bot commented Nov 18, 2023 •

edited

Loading

shaoxt left a comment

Early cordon #405

Early cordon #405

Conversation

shreyas-badiger commented Nov 9, 2023 • edited Loading

codecov bot commented Nov 18, 2023 • edited Loading

Codecov Report

shaoxt left a comment

Choose a reason for hiding this comment

shreyas-badiger commented Nov 9, 2023 •

edited

Loading

codecov bot commented Nov 18, 2023 •

edited

Loading