[AWS][Terraform]ECS/FargateでAuto Scalingの設定をしてみた

今回初ECS/FargateでAuto Scalingの設定を試してみました。FargateとEC2のAuto Scaling設定違いといえば、インスタンスの縛りがないことで、ECS Cluster内でtaskを自在に配置と管理ができます。なのでデプロイ周りの実装などは考えずに設定が楽になります。また、Auto Scalingの設定はサービスから設定できますが、実際には別リソースということもあり、テストとしてTerraformでCloudWatch Alermと連携してCPUメトリクスでスケールイン/アウトを実装してみました。

※ちなみにEC2のオートスケールはデプロイ含めて手間がかかる。。

[AWS]EC2オートスケール時のデプロイ実装手順と運用について

オートスケールの概要と設定の流れ

https://aws.amazon.com/jp/blogs/news/automatic-scaling-with-amazon-ecs/

・来ているアプリケーションの負荷にキャパシティを対応させる: ECS ServiceとECS ClusterのAuto Scaling Groupを両方にScaling Policyを使います。必要に応じて、Cluster InstanceとService Taskをスケールアウトさせ、需要が落ち着いたら安全にスケールインさせることで、キャパシティの推測ゲームから抜け出せます。これによって、ロングランな環境で低コストな高可用性を実現できます。

・複数AZのClusterでECSの基盤に高い可用性を持たせる: Zone障害という可能性から守ることができます。Availability Zoneを考慮しているECS SchedulerはCluster上のTaskを管理し、スケールし、分散してくれるので、アーキテクチャは高い可用性を持ちます。

CloudWatch Alarm設定(CPU 60%でタスク増加)
ECS/Service AutoScaling 設定 (タスクの最大数2)
Auto Scaling Policy設定
負荷テスト

Terraform

https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/appautoscaling_target

https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/cloudwatch_metric_alarm

iam.tf

resource "aws_iam_service_linked_role" "ecs_application_autoscaling" {

aws_service_name = "ecs.application-autoscaling.amazonaws.com"

description = "Service-linked role for ECS Application Auto Scaling"

}

autoscale.tf

resource "aws_appautoscaling_target" "wordpress_ecs_target" {

service_namespace = "ecs"

resource_id = "service/${aws_ecs_cluster.wordpress.name}/${aws_ecs_service.wordpress.name}"

scalable_dimension = "ecs:service:DesiredCount"

role_arn = aws_iam_service_linked_role.ecs_application_autoscaling.arn

min_capacity = 1

max_capacity = 2

}

resource "aws_appautoscaling_policy" "wordpress_scale_up" {

name = "wordpress_scale_up"

service_namespace = "ecs"

resource_id = "service/${aws_ecs_cluster.wordpress.name}/${aws_ecs_service.wordpress.name}"

scalable_dimension = "ecs:service:DesiredCount"

step_scaling_policy_configuration {

adjustment_type = "ChangeInCapacity"

cooldown = 120

metric_aggregation_type = "Average"

step_adjustment {

metric_interval_lower_bound = 0

scaling_adjustment = 1

}

depends_on = [aws_appautoscaling_target.wordpress_ecs_target]

}

resource "aws_appautoscaling_policy" "wordpress_scale_down" {

name = "wordpress_scale_down"

service_namespace = "ecs"

resource_id = "service/${aws_ecs_cluster.wordpress.name}/${aws_ecs_service.wordpress.name}"

scalable_dimension = "ecs:service:DesiredCount"

step_scaling_policy_configuration {

adjustment_type = "ChangeInCapacity"

cooldown = 120

metric_aggregation_type = "Average"

step_adjustment {

metric_interval_upper_bound = 0

scaling_adjustment = -1

}

depends_on = [aws_appautoscaling_target.wordpress_ecs_target]

}

resource "aws_cloudwatch_metric_alarm" "wordpress_cpu_high" {

alarm_name = "wordpress_cpu_utilization_high"

comparison_operator = "GreaterThanOrEqualToThreshold"

evaluation_periods = "1"

metric_name = "CPUUtilization"

namespace = "AWS/ECS"

period = "60"

statistic = "Average"

threshold = "60"

dimensions = {

ClusterName = aws_ecs_cluster.wordpress.name

ServiceName = aws_ecs_service.wordpress.name

}

alarm_actions = [aws_appautoscaling_policy.wordpress_scale_up.arn]

}

resource "aws_cloudwatch_metric_alarm" "wordpress_cpu_low" {

alarm_name = "wordpress_cpu_utilization_low"

comparison_operator = "LessThanOrEqualToThreshold"

evaluation_periods = "1"

metric_name = "CPUUtilization"

namespace = "AWS/ECS"

period = "60"

statistic = "Average"

threshold = "30"

dimensions = {

ClusterName = aws_ecs_cluster.wordpress.name

ServiceName = aws_ecs_service.wordpress.name

}

alarm_actions = [aws_appautoscaling_policy.wordpress_scale_down.arn]

}

テストとして、WordPressコンテナでCPU 60%以上負荷がかかったらコンテナ数(タスク)2台にしてCPU 30%以下でコンテナ数(タスク)1台にするよう作ってみました。使用するResourceは aws_appautoscaling_target と aws_cloudwatch_metric_alarm になります。実際に動作確認してみましょう。

他にもTerraformのバグなのかわかりませんが、IAMでService Auto Scaling用のIAM ロールを指定すると、以下のエラーが出てしまった場合は独自のロールを作成して適用すればいいんですが、なぜかデフォルトの AWSServiceRoleForApplicationAutoScaling_ECSService のロールが新規できてしまい、サービスから独自のロールに更新してもデフォのロールに戻ってしまうので、一旦独自ロールを作成して適用してから AWSServiceRoleForApplicationAutoScaling_ECSService に戻すようにしました。これはハマった…

Error: error reading IAM Role (AWSServiceRoleForApplicationAutoScaling_ECSService): NoSuchEntity: The role with name AWSServiceRoleForApplicationAutoScaling_ECSService cannot be found.

status code: 404, request id: xxxxxxxxxxxxxxxxxxxxxxxxx

on autoscale.tf line 86, in data "aws_iam_role" "ecs_service_autoscaling":

86: data "aws_iam_role" "ecs_service_autoscaling" {

# aws_appautoscaling_target.wordpress_ecs_target will be updated in-place

~ resource "aws_appautoscaling_target" "wordpress_ecs_target" {

id = "service/wordpress/wordpress"

max_capacity = 2

min_capacity = 1

resource_id = "service/wordpress/wordpress"

~ role_arn = "arn:aws:iam::xxxxxxxx:role/aws-service-role/ecs.application-autoscaling.amazonaws.com/AWSServiceRoleForApplicationAutoScaling_ECSService" -> "arn:aws:iam::xxxxxxxx:role/ecs_autoscale_role"

scalable_dimension = "ecs:service:DesiredCount"

service_namespace = "ecs"

}

Plan: 0 to add, 1 to change, 0 to destroy.

https://docs.aws.amazon.com/ja_jp/AmazonECS/latest/userguide/service-auto-scaling.html#auto-scaling-IAM

補足としてはECS サービスの自動スケーリングを有効にすると、サービスにリンクされたロールが AWSServiceRoleForApplicationAutoScaling_ECSService という名前で作成されます。

https://docs.aws.amazon.com/ja_jp/autoscaling/application/userguide/application-auto-scaling-service-linked-roles.html

https://registry.terraform.io/providers/hashicorp/aws/latest/docs/resources/appautoscaling_target#role_arn

サービスリンクロールを手動で作成する必要はありません。Application Auto Scaling は、ユーザーが RegisterScalableTarget を呼び出す時に、適切なサービスリンクロールを作成します。例えば、Amazon ECS サービスのオートスケーリングをセットアップする場合は、Application Auto Scaling が AWSServiceRoleForApplicationAutoScaling_ECSService ロールを作成します。

なので、以下既に作成されている場合は先頭に追加するか、上記サービスリンクロールを指定すれば問題ありません。

data "aws_iam_role" "ecs_service_autoscaling" {

name = "AWSServiceRoleForApplicationAutoScaling_ECSService"

}

負荷テスト

1	$ ab -n 100000000 -c 10000 https://hoge.com/

Totalリクエスト数100000000、同時アクセス数10000てabテストします。これは相当な負荷だ…AWSに上限申請しないと。

CPU 60%超える

タスクが2台になる

CPU 30%になる

タスクが1台になる

まとめ

ECS/FargateでAutoScale試してみたんだけど、なんて便利なの！！CloudWatchAlarmと連携してCPUメトリクスでスケールイン/アウトするだけだった。Terraform化もサクッと。後でブログ書こう📖

— adachin👾SRE (@adachin0817) March 8, 2021

特にハマることなくTerraformでサクッと実装することができました。簡単にオートスケーリングの設定が可能なので、Fargateの良さをさらに発見することができました。本番はもろもろ調整する必要があるので設定せねば！ちなみに60%だとECSの立ち上がりが遅いので20%の方がベストですね。

[AWS][Terraform]ECS/FargateでAuto Scalingの設定をしてみた

投稿者: adachi.ryo 投稿日: 2021/03/082021/03/08

オートスケールの概要と設定の流れ

Terraform

負荷テスト

まとめ

adachi.ryo

0件のコメント

コメントを残すコメントをキャンセル

AWS Summit Japanで登壇してきた

AWS Database Migration Service(DMS)でカラム単位のデータマスキングを試してみた

[AWS][Terraform]Security LakeでCloudTrailやWAFのログをGrafanaで可視化する

[AWS][Terraform]ECS/FargateでAuto Scalingの設定をしてみた

投稿者: adachi.ryo 投稿日: 2021/03/082021/03/08

オートスケールの概要と設定の流れ

Terraform

負荷テスト

まとめ

adachi.ryo

0件のコメント

コメントを残すコメントをキャンセル

関連投稿

AWS Summit Japanで登壇してきた

AWS Database Migration Service(DMS)でカラム単位のデータマスキングを試してみた

[AWS][Terraform]Security LakeでCloudTrailやWAFのログをGrafanaで可視化する