Tile-based Streaming for Panoramic and 360° Video
Mensch & Buch (Verlag)
978-3-96729-146-9 (ISBN)
- Keine Verlagsinformationen verfügbar
- Artikel merken
The work discusses aspects related to panoramic video streaming and omnidirectional video streaming, aka. 360° video streaming. In general, the techniques and solutions presented within this thesis aim at reducing the transmitted bitrate of the panoramic or omnidirectional video compared to traditional streaming methods, without reducing the effective video quality.
In Chapter 1, an overview of panoramic video streaming and 360° video streaming is given. In this chapter, the state-of-the-art is summarized. The main idea is to divide the content into several tiles and to take into account their relevance for transmission. That is, in case of panoramic video streaming, to transmit only tiles that lie within the region of interest (RoI) of the user. In case of 360° video streaming, tiles are available at several resolutions. For 360° video streaming cases, all tiles of the whole omnidirectional video are transmitted, while their quality is decided based on the viewing orientation of the user.
Tiles within the field of view of the user are transmitted in high resolution while the rest are transmitted in low resolution. For both, tile-based panoramic video streaming and tile-based 360° video streaming, a quick reaction to users’ interaction is also required to adapt the subset and/or qualities of the downloaded tiles.
Chapter 2 presents a parametric model that can be used to derive the optimal tile sizes into which a panoramic video is split. The model is derived based on the spatio-temporal characteristics of a specific video sequence. Two metrics, namely the spatial activity and temporal activity metrics, are used to predict the efficiency penalty of tiling the content into several tiles and based on it, the model determines the most efficient tile sizes for a streaming service, i.e. the tile sizes that minimize the transmitted bitrate.
Chapter 3 describes a bitstream processing method that allows combining independently encoded bitstreams into a single bitstream, thereby enabling the usage of a single hardware decoder for tile-based streaming. In order to be able to perform the described process, the original bitstreams must fulfil a set of constraints as described in the chapter.
The constraints, discussed within the chapter, apply to High Efficiency Video Coding (HEVC) Standard and its layered extensions Scalable High Efficiency Video Coding (SHVC) and Multiview High Efficiency Video Coding (MV-HEVC). With the described technique, the usage of so-called open GOP coding configurations is possible in case of SHVC, which allows for a more efficient coding of the video content interactive panoramic video services.
In Chapter 4, an algorithm is presented that has been developed for streaming of interactive panoramic video over HTTP. The main focus of the chapter is on a Dynamic Adaptive Streaming Over HTTP (DASH) Client that reacts with a very low-latency to users’ interaction and adapts their decision on which tiles to download depending on the RoI of a user. Typically, DASH rate-adaptation algorithms are based on a buffer at the client side of several seconds, which helps overcoming throughput variations in the network. Such a solution is not possible for the described scenario, since changes on the RoI of a user need to be quickly reflected on the downloaded tiles. Therefore, a DASH rate-adaptation algorithm is described within Chapter 4 that works for the required small buffers.
In Chapter 5, a method is described that aims at optimizing the RAP period with which a tiled 360° video is encoded. On the one side, a shorter RAP period allows for a quicker adaptation of the downloaded tiles to user interaction. On the other side, the shorter the RAP period is, the more is reduced the coding efficiency of a video. A model is derived that can be used to determine the RAP period which a given 360° video should be encoded with so that the transmitted bitrate is minimized, while ensuring that most of the users watch the high-resolution video for most of the streaming session.
Chapter 6 provides an analysis of the impact of the end-to-end delay on the visual fidelity of the content watched by viewers. The chapter describes a prediction algorithm that improves the performance of the tile-based streaming system and maintains its gains for up to 1 second of end-to-end delay in the transmission chain. The developed algorithm consists of a prediction model based on the current viewing orientation of a user combined with a velocity-based unequal quality distribution mechanism. Diese Arbeit beschäftigt sich mit dem Transport von Mediendaten in panoramischen und omnidirektionalen Videoformaten, die typischerweise einen größeren Blickwinkel als klassische Videoformate abbilden. Der Transport von solchen Mediadaten stellt hohe Anforderungen an verschiedene Stellen der Übertragungskette wie z.B. bei der Aufbereitung der Videoinhalte zum Transport, der eigentlichen Übertragung, sowie auf der Empfängerseite.
Im Besonderen wurden in dieser Arbeit Methoden entwickelt, die es zum Ziel haben die Übertragungsrate zu reduzieren ohne die wahrgenommene Videoqualität zu verringern.
Zur allgemeinen Übersicht bezüglich panoramischem und omnidirektionalem Video gibt Kapitel 1 eine Einführung zu den besonderen Kodierungs- und Übertragungstechniken für derartige Videoformate sowie eine Zusammenfassung des Standes der Technik. In diesem Kapitel ist der Stand der Technik zusammengefasst, der relevant für die in Kapitel 2 bis 6 präsentierten Arbeiten ist. Die Grundidee der vorliegenden Arbeit ist, das Video in mehrere Kacheln zu unterteilen und die Relevanz für den Nutzer bei ihrer Übertragung zu beachten. Das heißt im Fall der Übertragung von panoramischem Video nur die Videobereiche zu übertragen, die der Nutzer auch betrachtet. Außerdem stehen die Videokacheln für die Übertragung von omnidirektionalem Video in mehreren Auflösungen zur Verfügung. In diesem Anwendungsszenario werden alle Kacheln übertragen wobei die Qualität der einzelnen Kacheln in Abhängigkeit der Nutzerblickrichtung gewählt wird. Das heisst dass Videokacheln in höherer Auflösung übertragen werden, wenn sie im Blickfeld des Nutzers liegen verglichen mit Kacheln, die außerhalb des Blickfelds liegen. Eine schnelle Anpassung an Änderungen der Nutzerblickrichtung ist auch hier essentiell damit dem Nutzer Kacheln in niedriger Auflösung nicht über längere Zeit hinweg gezeigt werden.
Kapitel 2 beschäftigt sich mit einer optimierten Aufbereitung von Panoramavideos. Hierzu ist ein parametrisches Model abgeleitet worden, das erlaubt, basierend auf Komplexitätsmetriken für Videoinhalte die zusätzliche Bitrate abzuschätzen, die durch das Unterteilen des Videos in Kacheln erforderlich wird. Die prädizierte zusätzliche Bitrate erlaubt es, die tatsächliche durchschnittliche Übertragungsrate abzuschätzen und damit eine optimale Aufteilung zu finden, die die Übertragungsrate minimiert.
In Kapitel 3 ist eine Technik beschrieben, die es erlaubt mehrere separat kodierte Videos mit geringem Aufwand in einem einzigen Videostrom zu vereinen. Die Technik, die solch eine Operation erlaubt, erfordert eine spezielle Kodierung der Videoinhalte bei der verschiedene Beschränkungen auf Encoderseite eingehalten werden müssen. Die Einschränkungen bei der Videoerstellung, die in diesem Kapitel aufgeführt werden, betreffen den High Efficiency Video Coding (HEVC)-Standard und seine Erweiterungen Scalable High Efficiency Video Coding (SHVC) und Multiview High Efficiency Video Coding (MV-HEVC). Durch die beschriebenen Techniken ist die Nutzung sogenannter Open-GOP-Kodierungskonfigurationen im Fall von SHVC möglich, die eine effizientere Kodierung des Videoinhalts für panoramische Videoapplikationen erlauben. Ergebnisse der entwickelten Techniken im Vergleich zum Stand der Technik werden ebenso präsentiert.
Kapitel 4 beschäftigt sich mit einem Algorithmus, der für die interaktive Übertragung von Panoramavideos über das HTTP Protokoll entwickelt worden ist. Im Besonderen wird in diesem Kapitel ein Augenmerk darauf gelegt, dass ein Dynamic Adaptive Streaming Over HTTP (DASH)-Empfänger mit geringer Latenz auf die Interaktion des Nutzers reagieren kann und seine Entscheidung darüber Teile des Videos herunterzuladen anpassen kann. Typischerweise bauen DASH Ratenadaptionsalgorithmen einen Puffer von mehreren Sekunden Videolänge auf um Durchsatzvariationen des Netzwerks zu bewältigen. So eine Lösung ist jedoch bei dem in diesem Teil der Arbeit betrachteten Anwendungsszenario nicht praktikabel. Deswegen wird in Kapitel 4 ein DASH-Ratenadaptionsalgorithmus beschrieben, der mit den notwendigen kleinen Puffergrößen funktioniert.
Eine Optimierung der Mediensegmentlängen bei der alle Segmente mit einem zeitlich unabhängig kodierten Random Access Point (RAP) erstellt worden sind, wird in Kapitel 5 beschrieben. Einerseits erlaubt ein kurzer RAP-Abstand beim Kachel-basierten Streaming schnell auf Änderungen der Nutzerorientierung zu reagieren. Andererseits wird dadurch die Kodiereffizienz des Videostroms drastisch reduziert. Das Kapitel 5 eröffnet eine Lösungsstrategie die dabei helfen kann den optimalen RAP Abstand zu bestimmen. Dabei wird sichergestellt, dass Kacheln in niedriger Auflösung dem Nutzer nicht länger als eine bestimmte Zeit mit einer bestimmten Wahrscheinlichkeit präsentiert werden.
Kapitel 6 beschäftigt sich mit der Prädiktion der Blickrichtung eines Nutzers innerhalb eines omnidirektionalen Videos in der Übertragungskette. Basierend auf einer Prädiktion der Nutzerblickrichtung durch Geschwindigkeit und Beschleunigung des Kopfes, ist ein Algorithmus zur Steuerung des Empfängerverhaltens entwickelt worden, der die Qualität der angeforderten Videokacheln bestimmt. Die Idee dahinter ist die Qualität der Prädiktion einzuschätzen und die Empfängerentscheidungen entsprechend zu beeinflussen. Gemessen am Stand der Technik werden im Kapitel 6 signifikante Gewinne des vorgeschlagenen Algorithmus gezeigt.
In Kapitel 7 ist die englische Zusammenfassung dieser Arbeit mit einer generellen Diskussion zum Ausblick und potentiellen weiterführenden Forschungsthemen zu finden.
This doctoral thesis focuses on different aspects of panoramic video streaming and 360° video streaming. The term panoramic video streaming herein refers to the streaming of high-resolution videos, covering a wide Field of View (FoV), where users are allowed to navigate interactively, watching an arbitrary Region-of-Interest (RoI) of the videos, i.e. a subset of the high-resolution video. Within the thesis, panoramic video streaming and VR streaming or 360° video streaming are considered to be different applications. Panoramic video streaming is considered to be streaming of a video with a wide FoV horizontally (up to 360°) but a restricted FoV vertically (<180°), i.e. streaming of a video that is not omnidirectional. Although for both panoramic video streaming and 360° video streaming only a subset of the video is shown to the user, in the case of panoramic video streaming any rectangular section of the video can be cropped and presented at a display without requiring any manipulation or processing of the cropped video. On the contrary, 360° video streaming, also referred to as VR streaming, deals with omnidirectional content for which the whole 360° scene is captured. Since the 360° scene is represented in a plane by some projection mapping, when a subset of the video is shown to the user (referred to as viewport), it is necessary to process the pixels within the 360° video carrying out some rectilinear projection of the pixels belonging to the viewport onto the plane that corresponds to the display. In addition, it is important to mention that when referring to panoramic video streaming, it is assumed that the content is consumed in devices such as TV sets, tablets, or mobile phones where the movement speed of the RoI can be limited not only by the physical limitation of user movement but also by streaming applications. This is a major difference from 360° video streaming applications for which the video is consumed using Head-Mounted Displays (HMD), for which the viewport needs to instantaneously change, where its changing speed only depends on the physical limitation of the user movements. In fact, for 360° video, the head pose may change considerably within milliseconds and it is vital that the content shown to the user (i.e. viewport) is dapted instantaneously to the momentary head pose.
Erscheinungsdatum | 17.02.2022 |
---|---|
Verlagsort | Berlin |
Sprache | englisch |
Maße | 148 x 210 mm |
Gewicht | 510 g |
Themenwelt | Informatik ► Grafik / Design ► Film- / Video-Bearbeitung |
Schlagworte | 360° video streaming • field of view (FOV) • high-resolution videos • High resolution video streaming • hochauflösende Videos • nicht omnidirektional • not omnidirectional • omnidirectional • omnidirektional • Panorama • Panorama video streaming • Panoramavideostreaming • Panoramavideo-Streaming • Panorama-Videostreaming • Panoramic video streaming • panoramisches Video-Streaming • Region-of-Interest (RoI) • Streaming • Streaming von hochauflösenden Videos • Videos • Viewport • VR streaming • VR-streaming |
ISBN-10 | 3-96729-146-4 / 3967291464 |
ISBN-13 | 978-3-96729-146-9 / 9783967291469 |
Zustand | Neuware |
Haben Sie eine Frage zum Produkt? |
aus dem Bereich