Athena で CloudFront ログ解析

streampack の Tana です。

概要

今回は Athena によるログ解析です。
動画を扱っていると、CDN(CloudFrontなど)で配信するので CloudFront のログから再生状況を確認することがたまにあります。
ローカルに s3 からアーカイブされたログをダウンロードして grep, sort, uniq してやるのも楽ではありますが、みにくく解析しにくい時があります。
その際に AWS Athena を使うとSQLクエリで条件を絞ったり、ソートしたりできるので便利です。

S3 に CloudFront のログ置く

Athena にてテーブルを作成

今回はすでに準備している下記のクエリからテーブルを作成します。

テーブル名: app_log
s3 bucket & path: s3://xxxxxx-sandbox/cf-logs/app

https://ap-northeast-1.console.aws.amazon.com/athena/home?force®ion=ap-northeast-1#query
下記のクエリを　Query Editor にてセットし、”Run query” を実行します。

CREATE EXTERNAL TABLE `app_log`(
  `request_date` string, 
  `request_time` string, 
  `x_edge_location` string, 
  `sc_bytes` int, 
  `client_ip` string, 
  `cs_method` string, 
  `cs_host` string, 
  `cs_uri_stem` string, 
  `sc_status` string, 
  `cs_referer` string, 
  `user_agent` string, 
  `uri_query` string, 
  `cookie` string, 
  `x_edge_result_type` string, 
  `x_edge_request_id` string, 
  `x_host_header` string, 
  `cs_protocol` string, 
  `cs_bytes` int, 
  `time_taken` decimal(8,3), 
  `x_forwarded_for` string, 
  `ssl_protocol` string, 
  `ssl_cipher` string, 
  `x_edge_response_result_type` string, 
  `cs_protocol_version` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES (
    'serialization.format' = '\t',
    'input.regex' = '\t'
)
LOCATION
  's3://xxxxxx-sandbox/cf-logs/app'
TBLPROPERTIES (
  'has_encrypted_data'='false')

クエリを投げる

シンプルに取得するなら、下記の SQL を実行します。

SELECT * FROM app_log;

フィルターや順序を変更したい場合はSQLと同様なクエリを実行するだけです。

WHERE request_time >= '17:00:00' AND request_time < '18:00:00'
AND time_taken > 1          # 1秒以上のレスポンスでかかったもの
AND sc_status = '200'       # 200 のもの
ORDER BY request_time ASC   # 処理時間順に表示
LIMIT 10                    # 10件のみ

おまけ

AWS-CLI でも生成したり取得したりできるので、オペレーション的には便利そうです。(下記は取得だけ)

$ aws athena get-query-results –query-execution-id xxxxxxxxxx –output table

終わり

実戦で使うようにするには、パーティション設計が必要です。さもなければ、フルスキャンすることになるのでコスト増や時間がよりかかります。Lmabda などで出力されるログにてs3のパスをyear=YYYY/month=mm/day=dd/ などの日付ごとに分割するようにし、対象日付のものだけスキャンするような仕掛けが必要そうです。(まだやれてないですが。。)

元記事はこちら

「Athena で CloudFront ログ解析」

この記事を書いた人

田中祐介動画おじさん田中祐介が書いた記事

Athena で CloudFront ログ解析

概要

S3 に CloudFront のログ置く

Athena にてテーブルを作成

クエリを投げる

おまけ

終わり

元記事はこちら

Google Cloud 認定資格のグッズ申請をしてみた

【体験談】産後パパ育休のススメ！4週間取得して感じたメリットと過ごし方

SadServersを試してみる

アイレット新卒シリーズ Vol.66 24新卒 Google オフィスツアーレポート

個人データ保管のコスト削減策(S3 Glacier Deep Archive)とaws s3 syncコマンドの高速化

Athena で CloudFront ログ解析

概要

S3 に CloudFront のログ置く

Athena にてテーブルを作成

クエリを投げる

おまけ

終わり

元記事はこちら

関連記事Related Articles

KotlinでAWS Athenaのビューワーつくった。

AWS Athena 別リージョンS3でのエラー

AWSのCDNよりも、AWSのCDNを安く使う方法

CloudTrailのログをKibanaで確認する(CloudWatch → Lambda → Elasticsearch)

（ショロカレ 12 日目）JAWS-UG福岡「ちょっと濃い目にAWSの話をしてみよう」で AWS カルタが超絶面白かったのと Amazon ES の話をさせて頂いたのでメモ