先日上海のAWSサミットを体験して中国のイメージがガラッと変わったhagi@streampackです。
以前の体験者の話や昔の記事と違い、上海は空気/生活環境的に素敵な街のイメージでした!
あとは言葉さえ通じれば問題はないのです。

はじめに

最近AV1について記事をよく見かけるので使ってみようと思い記事を残すこととしました。
ffmpegでもAV1を利用できるようになったので変換して再生してみます。

AV1(AOMedia Video 1)とは

AOMedia Video 1 (AV1) はインターネット上での動画配信を目的として設計されたオープンかつロイヤリティフリーな動画圧縮コーデックである。このコーデックはGoogleのVP9、そしてMPEGのHEVC/H.265の置き換えを目指している。開発を行っているのは半導体産業、VODプロバイダやWebブラウザ開発主体の主要企業の出資により2015年に設立されたコンソーシアムであるAlliance for Open Media (AOMedia) である。

Wikipediaより

順番が逆ですがAOM(Alliance for Open Media)のページはこちら(https://aomedia.org)

環境

EC2

OS:Amazon Linux AMI 2018.03
type:t2.medium (NVIDIAのGPUインスタンスはAV1エンコード未対応)

コンパイル

aomのコンパイルにはcmake3.5以上が必要。残念ながらAmazon Linuxのrepoにあるのは2.8.12です。
ffmpegのコンパイルでもcmakeを利用していたので既存のcmakeを削除してcmake.orgからバイナリをダウンロードしてインストールすることにした。

cmakeのインストール(Amazon Linux)

cmake.orgからバイナリをダウンロード

例:

ダウンロード

$ wget https://cmake.org/files/v3.12/cmake-3.12.0-rc1-Linux-x86_64.sh

実行

# /bin/sh cmake-3.12.0-rc1-Linux-x86_64.sh

aomのコンパイル

例:

# git clone --depth 1 https://aomedia.googlesource.com/aom
# mkdir aom_build
# cd aom_build
# /usr/local/cmake/bin/cmake -G "Unix Makefiles" -DCMAKE_INSTALL_PREFIX="$build_dir" -DENABLE_SHARED=off -DENABLE_NASM=on ../aom
# make; make install

$build_dirは環境に合わせたところを指定しますがffmpegと連携するのでffmpegの$build_dirを指定しました。私の$build_dirはffmpeg_buildを指定しました。
$build_dir内のbinにバイナリーが作成されます。

# ls -la ffmpeg_build/bin/

-rwxr-xr-x 1 root root  5951488 Jun 22 12:43 aomdec
-rwxr-xr-x 1 root root  5998440 Jun 22 12:43 aomenc

# ls -la ffmpeg_build/lib
total 289516
-rw-r--r-- 1 root root   6943698 Jun 22 12:43 libaom.a

ffmpegのコンパイル

ffmpegのコンパイルガイドはこちらです。(https://trac.ffmpeg.org/wiki/CompilationGuide)
libaomを利用するためffmpegをコンパイルする際 --enable-libaomを追記します。

私の環境では下記のようにコンパイルしました。
opensslも含めていますが私の環境で利用する場合便利なだけであって今回のAV1とは関係がないのでopensslのコンパイルについては割愛します。

# PKG_CONFIG_PATH="$build_dir/lib/pkgconfig" ./configure --prefix="$build_dir" --extra-cflags="-I$build_dir/include" --extra-ldflags="-L$build_dir/lib" --extra-libs=-lpthread --extra-libs=-lm --bindir="$bin_dir" --pkg-config-flags="--static" --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
# make; make install

コンパイルしたら ffmpeg -codecs でAV1対応か確認できます。

# ffmpeg -codecs
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Codecs:
 D..... = Decoding supported
 .E.... = Encoding supported
 ..V... = Video codec
 ..A... = Audio codec
 ..S... = Subtitle codec
 ...I.. = Intra frame-only codec
 ....L. = Lossy compression
 .....S = Lossless compression

     :                  :

 DEV.L. av1                  Alliance for Open Media AV1 (decoders: libaom-av1 ) (encoders: libaom-av1 )
     :                  :

AV1へ変換

AV1への変換は時間がかかると聞いていたので短い動画で実行することにします。
以前(http://bbb3d.renderfarming.net/download.html) より”Big Buck Bunny”の動画をダウンロードしてテスト用に短くしたものを利用。

利用動画

ファイル名: big_buck_bunny_720p_1mb.mp4
サイズ: 1.1mb
Duration: 5.31s

Video

Codec:h264
Resolution:1280×720
Bitrate: 1589kbps
fps:25

Audio

Codec:aac
frequency:48000hz
bitrate:384kbps

h.264->AV1

AV1をmp4に入れることができないのでmkvにする。

# time ffmpeg -i big_buck_bunny_720p_1mb.mp4 -strict -2 -c:a copy -c:v libaom-av1 -cpu-used 2 -crf 30 big_buck_bunny_720p_1mb.mkv
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'big_buck_bunny_720p_1mb.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    creation_time   : 1970-01-01T00:00:00.000000Z
    encoder         : Lavf53.24.2
  Duration: 00:00:05.31, start: 0.000000, bitrate: 1589 kb/s
    Stream #0:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], 1205 kb/s, 25 fps, 25 tbr, 12800 tbn, 50 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
Stream mapping:
  Stream #0:0 -> #0:0 (h264 (native) -> av1 (libaom-av1))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
[libaom-av1 @ 0x4bb0bc0] v0.1.0
Output #0, matroska, to 'big_buck_bunny_720p_1mb.mkv':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    encoder         : Lavf58.17.101
    Stream #0:0(und): Video: av1 (libaom-av1) (AV01 / 0x31305641), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 200 kb/s, 25 fps, 1k tbn, 25 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
      encoder         : Lavc58.20.103 libaom-av1
    Side data:
      cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: -1
    Stream #0:1(und): Audio: aac (LC) ([255][0][0][0] / 0x00FF), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
frame=  132 fps=0.0 q=-0.0 Lsize=     416kB time=00:00:05.29 bitrate= 643.7kbits/s speed=0.00147x
video:163kB audio:250kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.890282%

real    59m50.255s
user    59m41.166s
sys     0m1.470s

オプションなしで約1時間!!!libaomのcpu-usedオプションを利用出来るかと思ったができませんでした。
指定が間違っているのかなー。とはいえ利用できたとしても時間はかかりそうです。

参考程度ですが比較用

右がAV1、左がh.264

h.264->x265

比較するとしてHEVCにした場合どれぐらい時間がかかるかというと

# time ffmpeg -i big_buck_bunny_720p_1mb.mp4 -threads 0 -strict -2 -c:a copy -c:v libx265 big_buck_bunny_720p_1mb_h265.mp4
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'big_buck_bunny_720p_1mb.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    creation_time   : 1970-01-01T00:00:00.000000Z
    encoder         : Lavf53.24.2
  Duration: 00:00:05.31, start: 0.000000, bitrate: 1589 kb/s
    Stream #0:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], 1205 kb/s, 25 fps, 25 tbr, 12800 tbn, 50 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
Stream mapping:
  Stream #0:0 -> #0:0 (h264 (native) -> hevc (libx265))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
x265 [info]: HEVC encoder version 2.1+60-df25adaa30f6
x265 [info]: build info [Linux][GCC 4.8.3][64 bit] 8bit
x265 [info]: using cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.2 AVX AVX2 FMA3 LZCNT BMI2
x265 [info]: Main profile, Level-3.1 (Main tier)
x265 [info]: Thread pool created using 2 threads
x265 [info]: Slices                              : 1
x265 [info]: frame threads / pool features       : 1 / wpp(12 rows)
x265 [info]: Coding QT: max CU size, min CU size : 64 / 8
x265 [info]: Residual QT: max TU size, max depth : 32 / 1 inter / 1 intra
x265 [info]: ME / range / subpel / merge         : hex / 57 / 2 / 2
x265 [info]: Keyframe min / max / scenecut / bias: 25 / 250 / 40 / 5.00
x265 [info]: Lookahead / bframes / badapt        : 20 / 4 / 2
x265 [info]: b-pyramid / weightp / weightb       : 1 / 1 / 0
x265 [info]: References / ref-limit  cu / depth  : 3 / on / on
x265 [info]: AQ: mode / str / qg-size / cu-tree  : 1 / 1.0 / 32 / 1
x265 [info]: Rate Control / qCompress            : CRF-28.0 / 0.60
x265 [info]: tools: rd=3 psy-rd=2.00 rskip signhide tmvp strong-intra-smoothing
x265 [info]: tools: lslices=4 deblock sao
Output #0, mp4, to 'big_buck_bunny_720p_1mb_h265.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    encoder         : Lavf58.17.101
    Stream #0:0(und): Video: hevc (libx265) (hev1 / 0x31766568), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=2-31, 25 fps, 12800 tbn, 25 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
      encoder         : Lavc58.20.103 libx265
    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
frame=  132 fps= 16 q=-0.0 Lsize=     592kB time=00:00:05.29 bitrate= 915.9kbits/s speed=0.645x
video:335kB audio:250kB subtitle:0kB other streams:0kB global headers:2kB muxing overhead: 1.200387%
x265 [info]: frame I:      1, Avg QP:26.56  kb/s: 11815.40
x265 [info]: frame P:     34, Avg QP:28.22  kb/s: 1323.56
x265 [info]: frame B:     97, Avg QP:35.57  kb/s: 120.45
x265 [info]: Weighted P-Frames: Y:0.0% UV:0.0%
x265 [info]: consecutive B-frames: 5.7% 5.7% 14.3% 54.3% 20.0%

encoded 132 frames in 8.17s (16.15 fps), 518.94 kb/s, Avg QP:33.61

real    0m8.235s
user    0m15.667s
sys     0m0.118s

約8秒でした。threads 0を使わなければおそらく15+秒だったと思われる。
約5秒の動画で8秒は問題ないかとGPUインスタンスでもないし

x265->AV1

avcとhevcでは違いは?
HEVCにしたものをAV1に変化したら?

# time ffmpeg -i big_buck_bunny_720p_1mb_h265.mp4 -threads 0 -strict -2 -c:a copy -c:v libaom-av1 big_buck_bunny_720p_1mb_av1_from_hevc.mkv
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'big_buck_bunny_720p_1mb_h265.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2mp41
    encoder         : Lavf58.17.101
  Duration: 00:00:05.31, start: 0.000000, bitrate: 912 kb/s
    Stream #0:0(und): Video: hevc (Main) (hev1 / 0x31766568), yuv420p(tv, progressive), 1280x720 [SAR 1:1 DAR 16:9], 519 kb/s, 25 fps, 25 tbr, 12800 tbn, 25 tbc (default)
    Metadata:
      handler_name    : VideoHandler
    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      handler_name    : SoundHandler
Stream mapping:
  Stream #0:0 -> #0:0 (hevc (native) -> av1 (libaom-av1))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
[libaom-av1 @ 0x3243800] v0.1.0
Output #0, matroska, to 'big_buck_bunny_720p_1mb_av1_from_hevc.mkv':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2mp41
    encoder         : Lavf58.17.101
    Stream #0:0(und): Video: av1 (libaom-av1) (AV01 / 0x31305641), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 200 kb/s, 25 fps, 1k tbn, 25 tbc (default)
    Metadata:
      handler_name    : VideoHandler
      encoder         : Lavc58.20.103 libaom-av1
    Side data:
      cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: -1
    Stream #0:1(und): Audio: aac (LC) ([255][0][0][0] / 0x00FF), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      handler_name    : SoundHandler
frame=  132 fps=0.0 q=-0.0 Lsize=     419kB time=00:00:05.29 bitrate= 649.1kbits/s speed=0.000884x
video:166kB audio:250kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.879553%

real    99m46.998s
user    99m30.409s
sys     0m0.788s

約100分。。。かかるとは思っていたけど100分はきついですね。ちなみに調味本位でHEVCの約10分の動画をオプションなどを考えながら試したら8日間かかりました。

AV1->x264

仮にAV1で動画が提供された場合を考え、AV1からx264ってどれくらいかかるんだろうと考え試してみました。

# time ffmpeg -i big_buck_bunny_720p_1mb.mkv -threads 0 -strict -2 -c:a copy -c:v libx264 big_buck_bunny_720p_1mb_264_from_AV1.mp4
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
[libaom-av1 @ 0x47c4080] v0.1.0
Input #0, matroska,webm, from 'big_buck_bunny_720p_1mb.mkv':
  Metadata:
    COMPATIBLE_BRANDS: isomiso2avc1mp41
    MAJOR_BRAND     : isom
    MINOR_VERSION   : 512
    ENCODER         : Lavf58.17.101
  Duration: 00:00:05.31, start: 0.000000, bitrate: 641 kb/s
    Stream #0:0: Video: av1 (Main), yuv420p(tv), 1280x720, SAR 1:1 DAR 16:9, 25 fps, 25 tbr, 1k tbn, 1k tbc (default)
    Metadata:
      HANDLER_NAME    : VideoHandler
      ENCODER         : Lavc58.20.103 libaom-av1
      DURATION        : 00:00:05.280000000
    Stream #0:1: Audio: aac (LC), 48000 Hz, 5.1, fltp (default)
    Metadata:
      HANDLER_NAME    : SoundHandler
      DURATION        : 00:00:05.312000000
[libaom-av1 @ 0x47c61c0] v0.1.0
Stream mapping:
  Stream #0:0 -> #0:0 (av1 (libaom-av1) -> h264 (libx264))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
[libx264 @ 0x47c84c0] using SAR=1/1
[libx264 @ 0x47c84c0] using cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.2 AVX FMA3 AVX2 LZCNT BMI2
[libx264 @ 0x47c84c0] profile High, level 3.1
[libx264 @ 0x47c84c0] 264 - core 148 - H.264/MPEG-4 AVC codec - Copyleft 2003-2016 - http://www.videolan.org/x264.html - options: cabac=1 ref=3 deblock=1:0:0 analyse=0x3:0x113 me=hex subme=7 psy=1 psy_rd=1.00:0.00 mixed_ref=1 me_range=16 chroma_me=1 trellis=1 8x8dct=1 cqm=0 deadzone=21,11 fast_pskip=1 chroma_qp_offset=-2 threads=3 lookahead_threads=1 sliced_threads=0 nr=0 decimate=1 interlaced=0 bluray_compat=0 constrained_intra=0 bframes=3 b_pyramid=2 b_adapt=1 b_bias=0 direct=1 weightb=1 open_gop=0 weightp=2 keyint=250 keyint_min=25 scenecut=40 intra_refresh=0 rc_lookahead=40 rc=crf mbtree=1 crf=23.0 qcomp=0.60 qpmin=0 qpmax=69 qpstep=4 ip_ratio=1.40 aq=1:1.00
Output #0, mp4, to 'big_buck_bunny_720p_1mb_264_from_AV1.mp4':
  Metadata:
    COMPATIBLE_BRANDS: isomiso2avc1mp41
    MAJOR_BRAND     : isom
    MINOR_VERSION   : 512
    encoder         : Lavf58.17.101
    Stream #0:0: Video: h264 (libx264) (avc1 / 0x31637661), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 25 fps, 12800 tbn, 25 tbc (default)
    Metadata:
      HANDLER_NAME    : VideoHandler
      DURATION        : 00:00:05.280000000
      encoder         : Lavc58.20.103 libx264
    Side data:
      cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: -1
    Stream #0:1: Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp (default)
    Metadata:
      HANDLER_NAME    : SoundHandler
      DURATION        : 00:00:05.312000000
frame=  132 fps= 29 q=-1.0 Lsize=     977kB time=00:00:05.29 bitrate=1512.8kbits/s speed=1.17x
video:722kB audio:250kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.542971%
[libx264 @ 0x47c84c0] frame I:1     Avg QP:20.71  size: 86792
[libx264 @ 0x47c84c0] frame P:37    Avg QP:21.81  size: 12935
[libx264 @ 0x47c84c0] frame B:94    Avg QP:27.13  size:  1846
[libx264 @ 0x47c84c0] consecutive B-frames:  2.3%  7.6%  2.3% 87.9%
[libx264 @ 0x47c84c0] mb I  I16..4:  3.6% 84.4% 12.1%
[libx264 @ 0x47c84c0] mb P  I16..4:  1.4%  4.3%  0.4%  P16..4: 35.0% 12.2%  6.7%  0.0%  0.0%    skip:40.1%
[libx264 @ 0x47c84c0] mb B  I16..4:  0.1%  0.3%  0.0%  B16..8: 30.3%  1.2%  0.2%  direct: 0.4%  skip:67.5%  L0:44.4% L1:53.2% BI: 2.4%
[libx264 @ 0x47c84c0] 8x8 transform intra:74.4% inter:80.0%
[libx264 @ 0x47c84c0] coded y,uvDC,uvAC intra: 63.5% 66.8% 25.8% inter: 7.2% 7.1% 0.3%
[libx264 @ 0x47c84c0] i16 v,h,dc,p: 10% 17%  2% 70%
[libx264 @ 0x47c84c0] i8 v,h,dc,ddl,ddr,vr,hd,vl,hu: 20% 18% 10%  5% 10% 10% 10%  9%  8%
[libx264 @ 0x47c84c0] i4 v,h,dc,ddl,ddr,vr,hd,vl,hu: 23% 15%  9%  6% 12% 11%  9% 10%  5%
[libx264 @ 0x47c84c0] i8c dc,h,v,p: 47% 20% 21% 12%
[libx264 @ 0x47c84c0] Weighted P-Frames: Y:0.0% UV:0.0%
[libx264 @ 0x47c84c0] ref P L0: 60.9% 20.6% 14.6%  4.0%
[libx264 @ 0x47c84c0] ref B L0: 93.6%  5.4%  1.1%
[libx264 @ 0x47c84c0] ref B L1: 97.7%  2.3%
[libx264 @ 0x47c84c0] kb/s:1119.51

real    0m4.618s
user    0m7.805s
sys     0m0.149s

はやい。約8秒で出来上がりました。libaomのデコードは早いですね。
。。。とはいえAV1で提供はまだ難しいかもです。

下記は左から元動画(h.264)、元動画->AV1、AV1->x264。

h.264->vp9

ここでVP9からAV1はどうだろうと思いまずはVP9を作成してみました。
案の定あまりオプションにはこだわっていません。

# time ffmpeg -i big_buck_bunny_720p_1mb -threads 0 -strict -2 -c:a copy -c:v libx264 big_buck_bunny_720p_1mb_264_from_AV1.mp4
big_buck_bunny_720p_1mb_264_from_AV1.mp4   big_buck_bunny_720p_1mb_frag.mp4           big_buck_bunny_720p_1mb_h265.mp4           big_buck_bunny_720p_1mb.mp4
big_buck_bunny_720p_1mb_av1_from_hevc.mkv  big_buck_bunny_720p_1mb_h265.mkv           big_buck_bunny_720p_1mb.mkv
[root@livetest-01-1c ~]# time ffmpeg -i /root/big_buck_bunny_720p_1mb.mp4 -threads 0 -strict -2 -c:a copy -c:v libvpx-vp9 big_buck_bunny_720p_1mb_vp9_from_264.mkv
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'big_buck_bunny_720p_1mb.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    creation_time   : 1970-01-01T00:00:00.000000Z
    encoder         : Lavf53.24.2
  Duration: 00:00:05.31, start: 0.000000, bitrate: 1589 kb/s
    Stream #0:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], 1205 kb/s, 25 fps, 25 tbr, 12800 tbn, 50 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
Stream mapping:
  Stream #0:0 -> #0:0 (h264 (native) -> vp9 (libvpx-vp9))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
[libvpx-vp9 @ 0x4ace900] v1.6.0
Output #0, matroska, to 'big_buck_bunny_720p_1mb_vp9_from_264.mkv':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    encoder         : Lavf58.17.101
    Stream #0:0(und): Video: vp9 (libvpx-vp9) (VP90 / 0x30395056), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 200 kb/s, 25 fps, 1k tbn, 25 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
      encoder         : Lavc58.20.103 libvpx-vp9
    Side data:
      cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: -1
    Stream #0:1(und): Audio: aac (LC) ([255][0][0][0] / 0x00FF), 48000 Hz, 5.1, fltp, 384 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
frame=  132 fps=9.0 q=0.0 Lsize=     419kB time=00:00:05.29 bitrate= 648.6kbits/s speed=0.359x
video:166kB audio:250kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.897152%

real    0m14.785s
user    0m25.467s
sys     0m0.125s

約25秒でした。2コアで約15秒NVDIAのGPU使ったらもっと早いだろうけど。

vp9->AV1

もしかしたらVP9->AV1は爆速では?

# time ffmpeg -i big_buck_bunny_720p_1mb_vp9_from_264.mkv -threads 0 -strict -2 -c:a copy -c:v libaom-av1 big_buck_bunny_720p_1mb_AV1_from_vp9.mkv
ffmpeg version N-91341-g40b7e60718 Copyright (c) 2000-2018 the FFmpeg developers
  built with gcc 4.8.5 (GCC) 20150623 (Red Hat 4.8.5-28)
  configuration: --prefix=/root/ffmpeg_build/ --extra-cflags=-I/root/ffmpeg_build/include --extra-ldflags=-L/root/ffmpeg_build/lib --extra-libs=-lpthread --extra-libs=-lm --bindir=/root/ffmpeg_build/bin --pkg-config-flags=--static --enable-gpl --enable-nonfree --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-openssl --enable-libaom
  libavutil      56. 18.102 / 56. 18.102
  libavcodec     58. 20.103 / 58. 20.103
  libavformat    58. 17.101 / 58. 17.101
  libavdevice    58.  4.101 / 58.  4.101
  libavfilter     7. 25.100 /  7. 25.100
  libswscale      5.  2.100 /  5.  2.100
  libswresample   3.  2.100 /  3.  2.100
  libpostproc    55.  2.100 / 55.  2.100
Input #0, matroska,webm, from 'big_buck_bunny_720p_1mb_vp9_from_264.mkv':
  Metadata:
    COMPATIBLE_BRANDS: isomiso2avc1mp41
    MAJOR_BRAND     : isom
    MINOR_VERSION   : 512
    ENCODER         : Lavf58.17.101
  Duration: 00:00:05.31, start: 0.000000, bitrate: 645 kb/s
    Stream #0:0: Video: vp9 (Profile 0), yuv420p(tv), 1280x720, SAR 1:1 DAR 16:9, 25 fps, 25 tbr, 1k tbn, 1k tbc (default)
    Metadata:
      HANDLER_NAME    : VideoHandler
      ENCODER         : Lavc58.20.103 libvpx-vp9
      DURATION        : 00:00:05.280000000
    Stream #0:1: Audio: aac (LC), 48000 Hz, 5.1, fltp (default)
    Metadata:
      HANDLER_NAME    : SoundHandler
      DURATION        : 00:00:05.312000000
Stream mapping:
  Stream #0:0 -> #0:0 (vp9 (native) -> av1 (libaom-av1))
  Stream #0:1 -> #0:1 (copy)
Press [q] to stop, [?] for help
[libaom-av1 @ 0x4279240] v0.1.0
Output #0, matroska, to 'big_buck_bunny_720p_1mb_AV1_from_vp9.mkv':
  Metadata:
    COMPATIBLE_BRANDS: isomiso2avc1mp41
    MAJOR_BRAND     : isom
    MINOR_VERSION   : 512
    encoder         : Lavf58.17.101
    Stream #0:0: Video: av1 (libaom-av1) (AV01 / 0x31305641), yuv420p, 1280x720 [SAR 1:1 DAR 16:9], q=-1--1, 200 kb/s, 25 fps, 1k tbn, 25 tbc (default)
    Metadata:
      HANDLER_NAME    : VideoHandler
      DURATION        : 00:00:05.280000000
      encoder         : Lavc58.20.103 libaom-av1
    Side data:
      cpb: bitrate max/min/avg: 0/0/0 buffer size: 0 vbv_delay: -1
    Stream #0:1: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 48000 Hz, 5.1, fltp (default)
    Metadata:
      HANDLER_NAME    : SoundHandler
      DURATION        : 00:00:05.312000000
frame=  132 fps=0.0 q=-0.0 Lsize=     424kB time=00:00:05.29 bitrate= 657.0kbits/s speed=0.000827x
video:171kB audio:250kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.872597%

real    106m36.573s
user    105m51.992s
sys     0m0.973s

そんなことなかった、h264やh265からの変換よりもさらに遅い。

結果

今回は特にffmpegの変換時のオプション/画質などにこだわらずまずはAV1への変換ってどんな感じだろうと思い、やりました。
結果まだまだAV1は利用が難しいと思いました。

Encode Time (ffmpeg) bitrate File size vmaf score
 h.264 (元動画) 1205kbps 1.1mb 99.092110
h.264->AV1 59m50.255s 641kbps 416kb 78.207255
h.264->x265 0m15.785s 912kbps 592kb 86.672754
x265->AV1 99m46.998s 649kbps 420kb 76.202847
AV1->x264 0m7.954s 1120kbps 978kb 76.669449
h.264->vp9 0m25.592s 645 kbps 419kb 71.359159
vp9->AV1 106m36.573s 654 kbps 425kb 67.084651

VMAFスコアも記述しましたが、どうしてもエンコード時にはあまり画質を意識していなかったためか低くなっています。
オプションなしの場合の参考程度にしかなりませんが

おまけ

再生

そもそもAV1どうやって再生したんだ。との指摘がありそうなので記述します。
libaomがコンパイルされたffplayで再生が可能です。

OSXやWindows用コンパイル済みバイナリをここから ダウンロードできます。

例:

# ffplay big_buck_bunny_720p_1mb.mp4

元記事はこちら

EC2(amazon linux)でffmpegを使ってAV1エンコードしてみた